学习
📝 学习(learning)是经验导致的行为或知识的相对持久的变化。心理学揭示了三种基本学习机制——经典条件反射、操作性条件反射和观察学习——它们共同解释了从恐惧症形成到语言习得、从成瘾到文化传播的广泛现象。学习并非无限可塑的"白板"过程,生物学约束为学习设定了进化边界。
经典条件反射
Pavlov 的发现
Ivan Pavlov(巴甫洛夫,1849-1936)在研究狗的消化系统时偶然发现了经典条件反射现象。原本的研究目的是测量唾液分泌量与食物类型的关系,但 Pavlov 注意到实验犬在看到食物之前——仅听到实验助手的脚步声或看到食盆——就开始分泌唾液。这种"预期性"反应促使 Pavlov 转向系统研究联结学习(associative learning)。
经典条件反射的基本程序是将一个原本中性的刺激(如铃声)反复与一个自然引发反应的刺激(如食物)配对呈现,经过多次配对后,原本中性的刺激单独出现也能引发类似的反应。
| 术语 | 定义 | Pavlov 实验中的对应 |
|---|---|---|
| 无条件刺激(unconditioned stimulus, UCS) | 自然引发反应的刺激 | 食物 |
| 无条件反应(unconditioned response, UCR) | 对 UCS 的自然反应 | 唾液分泌 |
| 条件刺激(conditioned stimulus, CS) | 经配对后能引发反应的原本中性刺激 | 铃声 |
| 条件反应(conditioned response, CR) | 对 CS 的习得反应 | 听到铃声分泌唾液 |
经典条件反射的关键现象
消退(extinction):如果 CS 反复出现但不再伴随 UCS,CR 逐渐减弱直至消失。但消退不等于"遗忘"——消退后经过一段时间,CR 可能自发恢复(spontaneous recovery),说明原始的联结并未被删除,而是被一种新的抑制性学习所覆盖。
泛化(generalization):对与 CS 相似的刺激也产生 CR。被狗咬伤后产生恐惧反应的个体可能泛化到所有四足毛皮动物。辨别(discrimination)是泛化的对立面——学会区分相似刺激中哪些预示 UCS、哪些不预示。
📝 经典实验:“小阿尔伯特"实验(Watson & Rayner, 1920)。 Watson 对 11 个月大的婴儿"小阿尔伯特"进行了情绪条件反射实验。实验者在婴儿触摸白鼠时在身后猛击钢棒制造巨响(UCS),引发惊恐反应(UCR)。经过七次配对后,白鼠单独出现(CS)即引发哭泣和回避反应(CR)。更值得注意的是恐惧发生了泛化——阿尔伯特开始对兔子、狗、圣诞老人面具等白色毛茸茸的物体都表现出恐惧。这一实验虽因严重伦理问题(未进行消退处理、未获充分知情同意)而备受批评,但它证明了情绪反应可以通过条件反射习得,为理解恐惧症的形成机制提供了重要框架。
经典条件反射的应用
系统脱敏(systematic desensitization,Wolpe 1958)是基于经典条件反射原理的恐惧症治疗方法。治疗过程包括三步:首先训练深度放松技术;然后建立恐惧的等级层次(从最不恐惧到最恐惧);最后在深度放松状态下逐步暴露于恐惧层次中越来越高的等级——因为放松反应与恐惧反应不相容(交互抑制原理),恐惧的条件反射被逐步打破。
操作性条件反射
Skinner 的操作性条件反射
B.F. Skinner(斯金纳,1904-1990)将学习研究的焦点从 Pavlov 的"刺激引发反应"转移到"行为由其后果控制”。操作性条件反射(operant conditioning)的核心原理是:一个行为之后跟随的后果决定了该行为在未来重复出现的概率。
| 操作 | 定义 | 效果 | 日常举例 |
|---|---|---|---|
| 正强化 | 行为后添加愉快刺激 | 行为频率增加 | 员工完成项目后获得奖金 |
| 负强化 | 行为后移除不愉快刺激 | 行为频率增加 | 服用止痛药后头痛消失 |
| 正惩罚 | 行为后添加不愉快刺激 | 行为频率减少 | 超速后收到罚单 |
| 负惩罚 | 行为后移除愉快刺激 | 行为频率减少 | 违反规则后被没收手机 |
一个经常被混淆的关键概念:负强化不是惩罚。“负"指移除,“强化"指增加行为。负强化通过移除不愉快刺激来增加行为频率(如系安全带使警报声停止,从而强化了系安全带的行为),而惩罚则是减少行为频率。
强化程式
连续强化(每次正确行为都给予强化)能最快地建立新行为,但一旦停止强化,行为消退也最快。间歇强化(intermittent reinforcement)只在部分正确行为后给予强化,建立行为较慢但行为更持久、更抗消退。
间歇强化有四种基本程式:
| 程式 | 特征 | 举例 | 行为特点 |
|---|---|---|---|
| 固定比率 | 每 N 次反应后强化 | 计件工资 | 高而稳定的反应率 |
| 变比率 | 平均 N 次反应后强化(不可预测) | 赌博机 | 最高的反应率、最强的抗消退性 |
| 固定间隔 | 每隔固定时间后的首次反应被强化 | 月薪制 | 临近强化时反应率提升 |
| 变间隔 | 平均间隔一定时间后的首次反应被强化 | 钓鱼 | 稳定而中等的反应率 |
📝 应用分析:赌博与社交媒体的变比率强化。 赌博(尤其是老虎机)之所以令人上瘾,关键在于它使用了变比率强化程式——奖励在不可预测的时间点出现,产生最高的反应率和最强的抗消退性。赌博者不知道下一次何时中奖,这种不确定性本身就是强大的行为驱动力。社交媒体的"刷新"机制(不知道何时会看到有趣的内容或收到点赞)运用了完全相同的原理——这被一些研究者称为"数字老虎机"设计。
Skinner 的行为塑造
行为塑造(shaping)是通过对越来越接近目标行为的近似行为进行逐步强化(successive approximation)来训练复杂行为的技术。Skinner 用这一方法训练鸽子"打保龄球"和"弹钢琴”——不是直接等待目标行为出现,而是先强化面向目标方向的转身,然后强化靠近目标的走动,逐步提高要求直到完整的目标行为出现。行为塑造在特殊教育、动物训练和康复治疗中有广泛应用。
观察学习
Bandura 的社会学习理论
Albert Bandura(班杜拉,1925-2021)突破了经典条件反射和操作性条件反射的局限,证明学习不一定需要直接的亲身体验和强化——人可以通过观察他人的行为及其后果来学习。
📝 经典实验:Bobo 玩偶实验(Bandura, Ross & Ross, 1961)。 3-6 岁的儿童被随机分为三组。实验组儿童观看一位成人以暴力方式对待一个充气 Bobo 玩偶——拳打、脚踢、用锤子敲打并喊"打他!";对照组观看一位成人安静地玩积木;另一对照组无榜样。随后让儿童在一个充满玩具(包括 Bobo 玩偶和攻击性工具)的房间中自由活动。结果显示:观看暴力榜样的儿童对 Bobo 玩偶表现出显著更多的攻击行为,且许多攻击行为是精确模仿榜样的特定动作和语言。后续实验还发现,如果儿童看到榜样的攻击行为被奖励,模仿程度更高;被惩罚则较低——但即使被惩罚组在被提供奖励后也能表现出之前"未表现"的攻击行为,说明学习(习得)与表现(执行)是可分离的。
观察学习的四个过程
Bandura 提出观察学习的完成需要四个过程:
- 注意过程(attention):观察者必须注意到模型的行为。榜样的吸引力、权威性和与观察者的相似性影响注意程度
- 保持过程(retention):将观察到的行为编码并存储在记忆中
- 再现过程(reproduction):将记忆中的表征转化为实际行为的能力——观看体操视频不等于能做出体操动作
- 动机过程(motivation):是否有足够的理由去执行所习得的行为——包括直接强化、替代强化(观察到他人获得奖励)和自我强化
习惯化
习惯化(habituation)是最简单的学习形式——对重复出现的无害刺激反应逐渐减弱。住在铁路旁的居民最初会被火车声惊醒,但数周后不再注意到。习惯化不同于感觉适应(后者发生在感受器水平,前者涉及中枢神经系统的学习过程),也不同于疲劳(新的刺激可以立即恢复反应,称为去习惯化)。
习惯化在发展心理学研究中具有方法论价值——由于婴儿无法用语言报告,研究者利用婴儿对新奇刺激注视时间更长(对习惯化刺激注视时间缩短)的特点来推断婴儿的知觉和认知能力。
学习的生物学约束
学习并非"白板"式的无限可塑过程——进化为学习设定了生物学约束(biological constraints on learning)。
味觉厌恶学习(Garcia & Koelling, 1966)只需一次就能建立。进食某种食物后出现恶心(即使恶心实际由胃肠炎引起而非食物中毒),对该食物的厌恶可持续数年。这种"一次学习"违反了经典条件反射需要多次配对的规则,且 CS-UCS 之间的时间间隔可长达数小时(通常经典条件反射要求间隔在秒级以内)。从进化角度看,快速建立对可能有毒食物的回避反应具有明显的生存价值。
预备学习(prepared learning,Seligman 1971):人类对特定刺激(蛇、蜘蛛、高处、封闭空间)更容易产生恐惧条件反射,对另一些刺激(花朵、蘑菇、电线插座)则很难建立恐惧——尽管后者在现代环境中可能更具实际危险。这种差异反映了进化留下的"学习偏好”——在人类进化史的大部分时间里,蛇和蜘蛛是真实的威胁,而电线插座仅存在了一百多年,不足以形成进化压力。
💭 延伸思考
- 社交媒体的"点赞"机制使用了变比率强化程式来维持用户的持续使用。平台设计者是否有意运用了操作性条件反射原理来最大化用户粘性?如果是,这引发了什么伦理问题?
- Bandura 的研究表明暴力媒体可以通过观察学习增加攻击行为。但大多数观看暴力内容的人并没有变得更暴力——观察学习的四个过程(尤其是动机过程)如何解释这种差异?
- 经典条件反射和操作性条件反射能否解释所有形式的学习?创造性问题解决、顿悟学习和语言习得是否需要完全不同的解释框架?
📚 参考文献
- Pavlov, I. P. (1927). Conditioned Reflexes: An Investigation of the Physiological Activity of the Cerebral Cortex. Oxford University Press.
- Skinner, B. F. (1953). Science and Human Behavior. Macmillan.
- Bandura, A., Ross, D., & Ross, S. A. (1961). Transmission of aggression through imitation of aggressive models. Journal of Abnormal and Social Psychology, 63(3), 575-582.
- Garcia, J., & Koelling, R. A. (1966). Relation of cue to consequence in avoidance learning. Psychonomic Science, 4(1), 123-124.
- Seligman, M. E. P. (1971). Phobias and preparedness. Behavior Therapy, 2(3), 307-320.