学习 – 社科通识知识库

学习

📝 学习（learning）是经验导致的行为或知识的相对持久的变化。心理学揭示了三种基本学习机制——经典条件反射、操作性条件反射和观察学习——它们共同解释了从恐惧症形成到语言习得、从成瘾到文化传播的广泛现象。学习并非无限可塑的"白板"过程，生物学约束为学习设定了进化边界。

经典条件反射

Pavlov 的发现

Ivan Pavlov（巴甫洛夫，1849-1936）在研究狗的消化系统时偶然发现了经典条件反射现象。原本的研究目的是测量唾液分泌量与食物类型的关系，但 Pavlov 注意到实验犬在看到食物之前——仅听到实验助手的脚步声或看到食盆——就开始分泌唾液。这种"预期性"反应促使 Pavlov 转向系统研究联结学习（associative learning）。

经典条件反射的基本程序是将一个原本中性的刺激（如铃声）反复与一个自然引发反应的刺激（如食物）配对呈现，经过多次配对后，原本中性的刺激单独出现也能引发类似的反应。

术语	定义	Pavlov 实验中的对应
无条件刺激（unconditioned stimulus, UCS）	自然引发反应的刺激	食物
无条件反应（unconditioned response, UCR）	对 UCS 的自然反应	唾液分泌
条件刺激（conditioned stimulus, CS）	经配对后能引发反应的原本中性刺激	铃声
条件反应（conditioned response, CR）	对 CS 的习得反应	听到铃声分泌唾液

经典条件反射的关键现象

消退（extinction）：如果 CS 反复出现但不再伴随 UCS，CR 逐渐减弱直至消失。但消退不等于"遗忘"——消退后经过一段时间，CR 可能自发恢复（spontaneous recovery），说明原始的联结并未被删除，而是被一种新的抑制性学习所覆盖。

泛化（generalization）：对与 CS 相似的刺激也产生 CR。被狗咬伤后产生恐惧反应的个体可能泛化到所有四足毛皮动物。辨别（discrimination）是泛化的对立面——学会区分相似刺激中哪些预示 UCS、哪些不预示。

📝 经典实验：“小阿尔伯特"实验（Watson & Rayner, 1920）。 Watson 对 11 个月大的婴儿"小阿尔伯特"进行了情绪条件反射实验。实验者在婴儿触摸白鼠时在身后猛击钢棒制造巨响（UCS），引发惊恐反应（UCR）。经过七次配对后，白鼠单独出现（CS）即引发哭泣和回避反应（CR）。更值得注意的是恐惧发生了泛化——阿尔伯特开始对兔子、狗、圣诞老人面具等白色毛茸茸的物体都表现出恐惧。这一实验虽因严重伦理问题（未进行消退处理、未获充分知情同意）而备受批评，但它证明了情绪反应可以通过条件反射习得，为理解恐惧症的形成机制提供了重要框架。

经典条件反射的应用

系统脱敏（systematic desensitization，Wolpe 1958）是基于经典条件反射原理的恐惧症治疗方法。治疗过程包括三步：首先训练深度放松技术；然后建立恐惧的等级层次（从最不恐惧到最恐惧）；最后在深度放松状态下逐步暴露于恐惧层次中越来越高的等级——因为放松反应与恐惧反应不相容（交互抑制原理），恐惧的条件反射被逐步打破。

操作性条件反射

Skinner 的操作性条件反射

B.F. Skinner（斯金纳，1904-1990）将学习研究的焦点从 Pavlov 的"刺激引发反应"转移到"行为由其后果控制”。操作性条件反射（operant conditioning）的核心原理是：一个行为之后跟随的后果决定了该行为在未来重复出现的概率。

操作	定义	效果	日常举例
正强化	行为后添加愉快刺激	行为频率增加	员工完成项目后获得奖金
负强化	行为后移除不愉快刺激	行为频率增加	服用止痛药后头痛消失
正惩罚	行为后添加不愉快刺激	行为频率减少	超速后收到罚单
负惩罚	行为后移除愉快刺激	行为频率减少	违反规则后被没收手机

一个经常被混淆的关键概念：负强化不是惩罚。“负"指移除，“强化"指增加行为。负强化通过移除不愉快刺激来增加行为频率（如系安全带使警报声停止，从而强化了系安全带的行为），而惩罚则是减少行为频率。

强化程式

连续强化（每次正确行为都给予强化）能最快地建立新行为，但一旦停止强化，行为消退也最快。间歇强化（intermittent reinforcement）只在部分正确行为后给予强化，建立行为较慢但行为更持久、更抗消退。

间歇强化有四种基本程式：

程式	特征	举例	行为特点
固定比率	每 N 次反应后强化	计件工资	高而稳定的反应率
变比率	平均 N 次反应后强化（不可预测）	赌博机	最高的反应率、最强的抗消退性
固定间隔	每隔固定时间后的首次反应被强化	月薪制	临近强化时反应率提升
变间隔	平均间隔一定时间后的首次反应被强化	钓鱼	稳定而中等的反应率

📝 应用分析：赌博与社交媒体的变比率强化。 赌博（尤其是老虎机）之所以令人上瘾，关键在于它使用了变比率强化程式——奖励在不可预测的时间点出现，产生最高的反应率和最强的抗消退性。赌博者不知道下一次何时中奖，这种不确定性本身就是强大的行为驱动力。社交媒体的"刷新"机制（不知道何时会看到有趣的内容或收到点赞）运用了完全相同的原理——这被一些研究者称为"数字老虎机"设计。

Skinner 的行为塑造

行为塑造（shaping）是通过对越来越接近目标行为的近似行为进行逐步强化（successive approximation）来训练复杂行为的技术。Skinner 用这一方法训练鸽子"打保龄球"和"弹钢琴”——不是直接等待目标行为出现，而是先强化面向目标方向的转身，然后强化靠近目标的走动，逐步提高要求直到完整的目标行为出现。行为塑造在特殊教育、动物训练和康复治疗中有广泛应用。

观察学习

Bandura 的社会学习理论

Albert Bandura（班杜拉，1925-2021）突破了经典条件反射和操作性条件反射的局限，证明学习不一定需要直接的亲身体验和强化——人可以通过观察他人的行为及其后果来学习。

📝 经典实验：Bobo 玩偶实验（Bandura, Ross & Ross, 1961）。 3-6 岁的儿童被随机分为三组。实验组儿童观看一位成人以暴力方式对待一个充气 Bobo 玩偶——拳打、脚踢、用锤子敲打并喊"打他！"；对照组观看一位成人安静地玩积木；另一对照组无榜样。随后让儿童在一个充满玩具（包括 Bobo 玩偶和攻击性工具）的房间中自由活动。结果显示：观看暴力榜样的儿童对 Bobo 玩偶表现出显著更多的攻击行为，且许多攻击行为是精确模仿榜样的特定动作和语言。后续实验还发现，如果儿童看到榜样的攻击行为被奖励，模仿程度更高；被惩罚则较低——但即使被惩罚组在被提供奖励后也能表现出之前"未表现"的攻击行为，说明学习（习得）与表现（执行）是可分离的。

观察学习的四个过程

Bandura 提出观察学习的完成需要四个过程：

注意过程（attention）：观察者必须注意到模型的行为。榜样的吸引力、权威性和与观察者的相似性影响注意程度
保持过程（retention）：将观察到的行为编码并存储在记忆中
再现过程（reproduction）：将记忆中的表征转化为实际行为的能力——观看体操视频不等于能做出体操动作
动机过程（motivation）：是否有足够的理由去执行所习得的行为——包括直接强化、替代强化（观察到他人获得奖励）和自我强化

习惯化

习惯化（habituation）是最简单的学习形式——对重复出现的无害刺激反应逐渐减弱。住在铁路旁的居民最初会被火车声惊醒，但数周后不再注意到。习惯化不同于感觉适应（后者发生在感受器水平，前者涉及中枢神经系统的学习过程），也不同于疲劳（新的刺激可以立即恢复反应，称为去习惯化）。

习惯化在发展心理学研究中具有方法论价值——由于婴儿无法用语言报告，研究者利用婴儿对新奇刺激注视时间更长（对习惯化刺激注视时间缩短）的特点来推断婴儿的知觉和认知能力。

学习的生物学约束

学习并非"白板"式的无限可塑过程——进化为学习设定了生物学约束（biological constraints on learning）。

味觉厌恶学习（Garcia & Koelling, 1966）只需一次就能建立。进食某种食物后出现恶心（即使恶心实际由胃肠炎引起而非食物中毒），对该食物的厌恶可持续数年。这种"一次学习"违反了经典条件反射需要多次配对的规则，且 CS-UCS 之间的时间间隔可长达数小时（通常经典条件反射要求间隔在秒级以内）。从进化角度看，快速建立对可能有毒食物的回避反应具有明显的生存价值。

预备学习（prepared learning，Seligman 1971）：人类对特定刺激（蛇、蜘蛛、高处、封闭空间）更容易产生恐惧条件反射，对另一些刺激（花朵、蘑菇、电线插座）则很难建立恐惧——尽管后者在现代环境中可能更具实际危险。这种差异反映了进化留下的"学习偏好”——在人类进化史的大部分时间里，蛇和蜘蛛是真实的威胁，而电线插座仅存在了一百多年，不足以形成进化压力。

💭 延伸思考

社交媒体的"点赞"机制使用了变比率强化程式来维持用户的持续使用。平台设计者是否有意运用了操作性条件反射原理来最大化用户粘性？如果是，这引发了什么伦理问题？
Bandura 的研究表明暴力媒体可以通过观察学习增加攻击行为。但大多数观看暴力内容的人并没有变得更暴力——观察学习的四个过程（尤其是动机过程）如何解释这种差异？
经典条件反射和操作性条件反射能否解释所有形式的学习？创造性问题解决、顿悟学习和语言习得是否需要完全不同的解释框架？

📚 参考文献

Pavlov, I. P. (1927). Conditioned Reflexes: An Investigation of the Physiological Activity of the Cerebral Cortex. Oxford University Press.
Skinner, B. F. (1953). Science and Human Behavior. Macmillan.
Bandura, A., Ross, D., & Ross, S. A. (1961). Transmission of aggression through imitation of aggressive models. Journal of Abnormal and Social Psychology, 63(3), 575-582.
Garcia, J., & Koelling, R. A. (1966). Relation of cue to consequence in avoidance learning. Psychonomic Science, 4(1), 123-124.
Seligman, M. E. P. (1971). Phobias and preparedness. Behavior Therapy, 2(3), 307-320.

意识记忆