概率与统计推理
📝 概率是处理不确定性的数学语言。在演绎推理给出"必然"、归纳推理给出"可能"之后,概率论告诉人们"可能性有多大"。贝叶斯推理提供了理性更新信念的框架,而统计谬误的识别则是避免被数据欺骗的关键能力。
概率的基础
概率的三种哲学解释
“概率"这个概念看似简单,但对它的哲学解释至少有三种,彼此之间存在深刻分歧:
| 解释 | 含义 | 适用场景 | 局限 |
|---|---|---|---|
| 频率解释 | 概率是大量重复试验中事件发生的相对频率 | 投硬币、掷骰子、保险精算 | 无法处理不可重复事件 |
| 主观解释 | 概率是理性主体对事件发生的信念强度 | 一次性事件的概率评估 | 引入了个人判断的主观性 |
| 先验解释 | 概率由逻辑上等可能的结果推算 | 公平骰子、理想化模型 | 需要"等可能性"假设 |
频率解释最符合科学实践(统计检验、实验设计),但它无法处理不可重复的事件——“明年全球经济衰退的概率"无法通过重复试验来确定。主观解释(贝叶斯解释)更灵活,允许对一次性事件赋予概率,但概率的"客观性"如何保证成为问题。这三种解释至今没有统一的哲学共识。
概率演算的基本规则
无论采用哪种哲学解释,概率的数学规则(Kolmogorov 公理化体系)是相同的:
公理 1:任何事件的概率在 0 到 1 之间。P(A) = 0 表示不可能,P(A) = 1 表示必然。
公理 2(互补):P(¬A) = 1 - P(A)。
公理 3(加法):P(A ∨ B) = P(A) + P(B) - P(A ∧ B)。如果 A 和 B 互斥,简化为 P(A) + P(B)。
乘法规则:P(A ∧ B) = P(A) × P(B|A)。如果 A 和 B 独立,简化为 P(A) × P(B)。
条件概率是概率论中最核心也最容易出错的概念:P(B|A) 表示"在 A 已经发生的条件下 B 发生的概率”。P(B|A) 与 P(A|B) 通常完全不同——混淆这两者是许多统计谬误的根源。
📝 案例:DNA 证据的概率误读。 在著名的 O.J. Simpson 案(1995 年)中,检方提出犯罪现场的 DNA 与 Simpson 匹配,匹配概率为十亿分之一。辩方律师 Alan Dershowitz 反驳说:在美国约有 5-6 个人的 DNA 也能匹配,因此 DNA 证据并不能证明有罪。这里涉及条件概率的微妙差异:P(DNA 匹配|无辜) = 1/10⁹ 确实很低,但 P(无辜|DNA 匹配) 还需要考虑先验概率和其他证据。此案展示了概率推理在法律语境中的复杂性——概率不等于确定性,而法律需要在不确定性下做出判断。
贝叶斯推理
贝叶斯定理(Bayes’ Theorem)是条件概率的核心工具,提供了根据新证据更新信念的理性方法:
$$P(H|E) = \frac{P(E|H) \times P(H)}{P(E)}$$
其中:
- P(H) 是先验概率——在看到证据之前对假说 H 的信念强度
- P(E|H) 是似然度——如果 H 为真,观察到证据 E 的概率
- P(H|E) 是后验概率——看到证据之后对 H 的更新信念
- P(E) 是证据的边际概率——在所有可能假说下观察到 E 的总概率
贝叶斯定理的直觉含义是:新证据应该更新但不应该取代先前的信念。如果一个假说的先验概率很低,即使证据看似支持它,后验概率也可能仍然不高。
贝叶斯推理的实际应用
医学诊断是贝叶斯推理最经典的应用场景。考虑以下情境:
- 某种疾病的基础发病率为 0.1%(千分之一)
- 检测的灵敏度(sensitivity)为 99%:P(阳性|患病) = 0.99
- 检测的特异度(specificity)为 99%:P(阴性|未患病) = 0.99
一个人检测结果为阳性,实际患病的概率是多少?
用贝叶斯定理计算:
- P(患病|阳性) = P(阳性|患病) × P(患病) / P(阳性)
- P(阳性) = P(阳性|患病) × P(患病) + P(阳性|未患病) × P(未患病)
- P(阳性) = 0.99 × 0.001 + 0.01 × 0.999 = 0.00099 + 0.00999 = 0.01098
- P(患病|阳性) = 0.00099 / 0.01098 ≈ 9%
结果令人惊讶:即使检测准确率高达 99%,阳性结果的实际患病概率只有约 9%。这是因为疾病的基础率(0.1%)极低——在 10000 人中,只有 10 人真正患病,检测会正确识别约 9.9 人;但在 9990 名健康人中,检测会产生约 99.9 个假阳性。假阳性的绝对数量远超真阳性。
统计谬误
人类在概率判断中存在系统性偏差——Kahneman 和 Tversky 在 1970-80 年代的开创性研究揭示了多种认知偏误。
基础率忽视(Base Rate Neglect)
上面的医学检测案例就是基础率忽视的典型表现。人们倾向于忽略先验概率(疾病基础率),只关注当前证据(检测结果)。在更日常的场景中:看到一位安静、戴眼镜的人,人们更倾向于猜测他是图书管理员而非销售员——尽管销售员的基础率远高于图书管理员。
辛普森悖论(Simpson’s Paradox)
一种趋势在分组数据中每组都成立,但在合并数据中反转的统计现象。
📝 案例:加州大学伯克利分校性别歧视案。 1973 年,有人指控伯克利大学研究生录取存在性别歧视——总体数据显示,男性申请者录取率为 44%,女性仅为 35%。然而,逐系分析后发现,大多数系的女性录取率与男性持平甚至更高。矛盾的解释是:女性更多地申请了竞争最激烈(录取率最低)的系,而男性更多地申请了较容易进入的系。合并数据掩盖了真实的因果结构——录取偏差不在于性别歧视,而在于申请分布的差异。辛普森悖论警示:合并数据可能产生完全误导的结论,分组分析是理解数据的必要步骤。
赌徒谬误(Gambler’s Fallacy)
认为独立事件之间存在"补偿”——连续抛出 10 次正面后,认为下一次更可能出现反面。实际上,如果硬币是公平的,每次抛掷的结果都是独立的,之前的结果不影响未来。赌徒谬误的心理根源是对"均值回归"的错误直觉——长期频率会趋向 50%,但这是通过大量新结果的"稀释"实现的,不是通过已有结果的"补偿"。
连言谬误(Conjunction Fallacy)
Kahneman 和 Tversky 的经典 Linda 问题:Linda,31 岁,单身,哲学专业毕业,学生时代关注社会公正和歧视问题。以下哪个更可能?(A) Linda 是银行出纳员;(B) Linda 是银行出纳员且是女权运动积极分子。大多数人选择 (B)——但这违反了概率的基本规则:P(A ∧ B) ≤ P(A),两个条件同时满足的概率不可能大于单个条件的概率。人们被"代表性启发"所误导——Linda 的描述更像一个女权活动家,所以人们觉得选项 (B) 更"合理"。
p 值争议
p 值(p-value)是统计假设检验中最广泛使用也最常被误解的概念。p 值的正式定义是:在零假设为真的条件下,观察到当前数据或更极端数据的概率。
p 值不是以下任何东西:
- 零假设为真的概率(这是一个常见但严重的误解)
- 实验结果不可复制的概率
- 效应大小的衡量
- 研究结果重要性的衡量
传统上,p < 0.05 被视为"统计显著"的门槛。但这个阈值是 Ronald Fisher 在 20 世纪初相当随意地选定的,没有深层的理论依据。
p 值争议的核心
2016 年,美国统计协会(ASA)发布了关于 p 值的官方声明——这是该组织 177 年历史上首次就统计实践发表正式立场——明确指出 p 值存在被广泛误用的问题。
争议的核心在于:p 值是否应该作为科学发现的"门槛"?批评者认为,二分法(显著/不显著)掩盖了证据强度的连续性,鼓励 p-hacking(反复调整分析直到 p < 0.05),并且忽略了效果量和实际意义。一些学者提议将阈值降低到 p < 0.005,另一些人则主张完全放弃 p 值转向贝叶斯方法。
📝 案例:xkcd 的"绿色软糖"漫画。 一则广为流传的 xkcd 漫画完美说明了 p-hacking 的问题。研究者测试"软糖是否导致痤疮",p > 0.05,不显著。然后分别测试 20 种不同颜色的软糖,在 p < 0.05 的阈值下,有一种颜色(绿色)恰好达到显著水平。新闻标题:“绿色软糖与痤疮有关!” 如果测试 20 种颜色,即使所有颜色都与痤疮无关,纯粹由于随机波动,预期有 1 种颜色会达到 p < 0.05(20 × 0.05 = 1)。这就是多重比较问题——不校正多重测试的 p 值是毫无意义的。
概率思维与日常决策
概率推理不仅是统计学的专业技能,更是日常理性决策的基础。贝叶斯思维方式的核心原则包括:
- 始终考虑基础率——在评估具体证据之前,先估计先验概率
- 根据证据强度渐进更新信念——一条证据应该移动信念,但通常不应让信念从一个极端跳到另一个极端
- 区分 P(A|B) 和 P(B|A)——“如果下雨地就湿"不等于"如果地湿就下了雨”
- 警惕可得性启发——容易想到的事件被高估概率(飞机失事 vs 车祸致死的实际概率差距极大)
💭 延伸思考
- 如果检测准确率为 99% 但疾病基础率为万分之一,阳性检测结果的实际患病概率是多少?这对大规模筛查政策有何启示?
- “宁可信其有,不可信其无"是一种什么样的概率思维?它在什么情况下合理(如低成本预防高危险事件),什么情况下不合理(如引发不必要的恐慌)?
- 贝叶斯方法和频率主义方法之间的争论是否有望被解决?两者在实践中是互补还是对立?
📚 参考文献
- Kahneman, D. (2011). Thinking, Fast and Slow (《思考,快与慢》). Farrar, Straus and Giroux. 概率判断中认知偏误的综合论述。
- McGrayne, S. B. (2011). The Theory That Would Not Die. Yale University Press. 贝叶斯定理的历史与应用。
- Wasserstein, R. L., & Lazar, N. A. (2016). “The ASA Statement on p-Values.” The American Statistician, 70(2). 美国统计协会关于 p 值的官方声明。
- Pearl, J. (2009). Causality (2nd ed.). Cambridge University Press. 因果推断与概率推理的统一框架。
- Hacking, I. (2001). An Introduction to Probability and Inductive Logic. Cambridge University Press. 概率哲学与归纳逻辑的优秀导论。