跳至内容

概率与统计推理

📝 概率是处理不确定性的数学语言。在演绎推理给出"必然"、归纳推理给出"可能"之后,概率论告诉人们"可能性有多大"。贝叶斯推理提供了理性更新信念的框架,而统计谬误的识别则是避免被数据欺骗的关键能力。

概率的基础

概率的三种哲学解释

“概率"这个概念看似简单,但对它的哲学解释至少有三种,彼此之间存在深刻分歧:

解释含义适用场景局限
频率解释概率是大量重复试验中事件发生的相对频率投硬币、掷骰子、保险精算无法处理不可重复事件
主观解释概率是理性主体对事件发生的信念强度一次性事件的概率评估引入了个人判断的主观性
先验解释概率由逻辑上等可能的结果推算公平骰子、理想化模型需要"等可能性"假设

频率解释最符合科学实践(统计检验、实验设计),但它无法处理不可重复的事件——“明年全球经济衰退的概率"无法通过重复试验来确定。主观解释(贝叶斯解释)更灵活,允许对一次性事件赋予概率,但概率的"客观性"如何保证成为问题。这三种解释至今没有统一的哲学共识。

概率演算的基本规则

无论采用哪种哲学解释,概率的数学规则(Kolmogorov 公理化体系)是相同的:

公理 1:任何事件的概率在 0 到 1 之间。P(A) = 0 表示不可能,P(A) = 1 表示必然。

公理 2(互补):P(¬A) = 1 - P(A)。

公理 3(加法):P(A ∨ B) = P(A) + P(B) - P(A ∧ B)。如果 A 和 B 互斥,简化为 P(A) + P(B)。

乘法规则:P(A ∧ B) = P(A) × P(B|A)。如果 A 和 B 独立,简化为 P(A) × P(B)。

条件概率是概率论中最核心也最容易出错的概念:P(B|A) 表示"在 A 已经发生的条件下 B 发生的概率”。P(B|A) 与 P(A|B) 通常完全不同——混淆这两者是许多统计谬误的根源。

📝 案例:DNA 证据的概率误读。 在著名的 O.J. Simpson 案(1995 年)中,检方提出犯罪现场的 DNA 与 Simpson 匹配,匹配概率为十亿分之一。辩方律师 Alan Dershowitz 反驳说:在美国约有 5-6 个人的 DNA 也能匹配,因此 DNA 证据并不能证明有罪。这里涉及条件概率的微妙差异:P(DNA 匹配|无辜) = 1/10⁹ 确实很低,但 P(无辜|DNA 匹配) 还需要考虑先验概率和其他证据。此案展示了概率推理在法律语境中的复杂性——概率不等于确定性,而法律需要在不确定性下做出判断。

贝叶斯推理

贝叶斯定理(Bayes’ Theorem)是条件概率的核心工具,提供了根据新证据更新信念的理性方法:

$$P(H|E) = \frac{P(E|H) \times P(H)}{P(E)}$$

其中:

  • P(H) 是先验概率——在看到证据之前对假说 H 的信念强度
  • P(E|H) 是似然度——如果 H 为真,观察到证据 E 的概率
  • P(H|E) 是后验概率——看到证据之后对 H 的更新信念
  • P(E) 是证据的边际概率——在所有可能假说下观察到 E 的总概率

贝叶斯定理的直觉含义是:新证据应该更新但不应该取代先前的信念。如果一个假说的先验概率很低,即使证据看似支持它,后验概率也可能仍然不高。

贝叶斯推理的实际应用

医学诊断是贝叶斯推理最经典的应用场景。考虑以下情境:

  • 某种疾病的基础发病率为 0.1%(千分之一)
  • 检测的灵敏度(sensitivity)为 99%:P(阳性|患病) = 0.99
  • 检测的特异度(specificity)为 99%:P(阴性|未患病) = 0.99

一个人检测结果为阳性,实际患病的概率是多少?

用贝叶斯定理计算:

  • P(患病|阳性) = P(阳性|患病) × P(患病) / P(阳性)
  • P(阳性) = P(阳性|患病) × P(患病) + P(阳性|未患病) × P(未患病)
  • P(阳性) = 0.99 × 0.001 + 0.01 × 0.999 = 0.00099 + 0.00999 = 0.01098
  • P(患病|阳性) = 0.00099 / 0.01098 ≈ 9%

结果令人惊讶:即使检测准确率高达 99%,阳性结果的实际患病概率只有约 9%。这是因为疾病的基础率(0.1%)极低——在 10000 人中,只有 10 人真正患病,检测会正确识别约 9.9 人;但在 9990 名健康人中,检测会产生约 99.9 个假阳性。假阳性的绝对数量远超真阳性。

统计谬误

人类在概率判断中存在系统性偏差——Kahneman 和 Tversky 在 1970-80 年代的开创性研究揭示了多种认知偏误。

基础率忽视(Base Rate Neglect)

上面的医学检测案例就是基础率忽视的典型表现。人们倾向于忽略先验概率(疾病基础率),只关注当前证据(检测结果)。在更日常的场景中:看到一位安静、戴眼镜的人,人们更倾向于猜测他是图书管理员而非销售员——尽管销售员的基础率远高于图书管理员。

辛普森悖论(Simpson’s Paradox)

一种趋势在分组数据中每组都成立,但在合并数据中反转的统计现象。

📝 案例:加州大学伯克利分校性别歧视案。 1973 年,有人指控伯克利大学研究生录取存在性别歧视——总体数据显示,男性申请者录取率为 44%,女性仅为 35%。然而,逐系分析后发现,大多数系的女性录取率与男性持平甚至更高。矛盾的解释是:女性更多地申请了竞争最激烈(录取率最低)的系,而男性更多地申请了较容易进入的系。合并数据掩盖了真实的因果结构——录取偏差不在于性别歧视,而在于申请分布的差异。辛普森悖论警示:合并数据可能产生完全误导的结论,分组分析是理解数据的必要步骤。

赌徒谬误(Gambler’s Fallacy)

认为独立事件之间存在"补偿”——连续抛出 10 次正面后,认为下一次更可能出现反面。实际上,如果硬币是公平的,每次抛掷的结果都是独立的,之前的结果不影响未来。赌徒谬误的心理根源是对"均值回归"的错误直觉——长期频率会趋向 50%,但这是通过大量新结果的"稀释"实现的,不是通过已有结果的"补偿"。

连言谬误(Conjunction Fallacy)

Kahneman 和 Tversky 的经典 Linda 问题:Linda,31 岁,单身,哲学专业毕业,学生时代关注社会公正和歧视问题。以下哪个更可能?(A) Linda 是银行出纳员;(B) Linda 是银行出纳员且是女权运动积极分子。大多数人选择 (B)——但这违反了概率的基本规则:P(A ∧ B) ≤ P(A),两个条件同时满足的概率不可能大于单个条件的概率。人们被"代表性启发"所误导——Linda 的描述更像一个女权活动家,所以人们觉得选项 (B) 更"合理"。

p 值争议

p 值(p-value)是统计假设检验中最广泛使用也最常被误解的概念。p 值的正式定义是:在零假设为真的条件下,观察到当前数据或更极端数据的概率

p 值不是以下任何东西:

  • 零假设为真的概率(这是一个常见但严重的误解)
  • 实验结果不可复制的概率
  • 效应大小的衡量
  • 研究结果重要性的衡量

传统上,p < 0.05 被视为"统计显著"的门槛。但这个阈值是 Ronald Fisher 在 20 世纪初相当随意地选定的,没有深层的理论依据。

p 值争议的核心

2016 年,美国统计协会(ASA)发布了关于 p 值的官方声明——这是该组织 177 年历史上首次就统计实践发表正式立场——明确指出 p 值存在被广泛误用的问题。

争议的核心在于:p 值是否应该作为科学发现的"门槛"?批评者认为,二分法(显著/不显著)掩盖了证据强度的连续性,鼓励 p-hacking(反复调整分析直到 p < 0.05),并且忽略了效果量和实际意义。一些学者提议将阈值降低到 p < 0.005,另一些人则主张完全放弃 p 值转向贝叶斯方法。

📝 案例:xkcd 的"绿色软糖"漫画。 一则广为流传的 xkcd 漫画完美说明了 p-hacking 的问题。研究者测试"软糖是否导致痤疮",p > 0.05,不显著。然后分别测试 20 种不同颜色的软糖,在 p < 0.05 的阈值下,有一种颜色(绿色)恰好达到显著水平。新闻标题:“绿色软糖与痤疮有关!” 如果测试 20 种颜色,即使所有颜色都与痤疮无关,纯粹由于随机波动,预期有 1 种颜色会达到 p < 0.05(20 × 0.05 = 1)。这就是多重比较问题——不校正多重测试的 p 值是毫无意义的。

概率思维与日常决策

概率推理不仅是统计学的专业技能,更是日常理性决策的基础。贝叶斯思维方式的核心原则包括:

  1. 始终考虑基础率——在评估具体证据之前,先估计先验概率
  2. 根据证据强度渐进更新信念——一条证据应该移动信念,但通常不应让信念从一个极端跳到另一个极端
  3. 区分 P(A|B) 和 P(B|A)——“如果下雨地就湿"不等于"如果地湿就下了雨”
  4. 警惕可得性启发——容易想到的事件被高估概率(飞机失事 vs 车祸致死的实际概率差距极大)

💭 延伸思考

  • 如果检测准确率为 99% 但疾病基础率为万分之一,阳性检测结果的实际患病概率是多少?这对大规模筛查政策有何启示?
  • “宁可信其有,不可信其无"是一种什么样的概率思维?它在什么情况下合理(如低成本预防高危险事件),什么情况下不合理(如引发不必要的恐慌)?
  • 贝叶斯方法和频率主义方法之间的争论是否有望被解决?两者在实践中是互补还是对立?

📚 参考文献

  1. Kahneman, D. (2011). Thinking, Fast and Slow (《思考,快与慢》). Farrar, Straus and Giroux. 概率判断中认知偏误的综合论述。
  2. McGrayne, S. B. (2011). The Theory That Would Not Die. Yale University Press. 贝叶斯定理的历史与应用。
  3. Wasserstein, R. L., & Lazar, N. A. (2016). “The ASA Statement on p-Values.” The American Statistician, 70(2). 美国统计协会关于 p 值的官方声明。
  4. Pearl, J. (2009). Causality (2nd ed.). Cambridge University Press. 因果推断与概率推理的统一框架。
  5. Hacking, I. (2001). An Introduction to Probability and Inductive Logic. Cambridge University Press. 概率哲学与归纳逻辑的优秀导论。