跳至内容

定量研究方法

📝 定量方法用数字来描述和解释社会现象——通过测量、计数和统计分析,揭示大规模的模式和规律。它的力量在于精确性和可验证性,但也面临可重复性危机等严峻挑战。

定量研究的核心逻辑

定量研究的基本逻辑是假设检验(hypothesis testing)——从理论推导出可检验的假设,收集数值化数据,用统计方法检验假设是否被数据支持。

标准流程如下:

  1. 理论→假设:从现有理论推导出可操作化的假设(如"教育年限每增加一年,年收入平均增加 X%")
  2. 操作化:将抽象概念转化为可测量的指标(“教育水平”→“正式教育年限”)
  3. 数据收集:通过调查、实验或二次数据获取数值数据
  4. 统计分析:用描述统计和推断统计检验假设
  5. 理论修正:根据结果修正或深化理论

这个流程与自然科学的假说-演绎法高度一致,体现了实证主义的方法论理想——社会世界像自然世界一样存在可发现的规律。

主要研究方法

调查研究(Survey Research)

调查是定量研究中最常用的数据收集方法——通过问卷向大量受访者收集标准化数据。

优势:样本量大、可推广、可量化、成本相对较低、可追踪时间变化(纵向调查)。

局限:问卷设计会预先限制回答范围(只能得到所问的内容)、受访者可能受社会期望效应(social desirability bias)影响而不如实回答、回忆偏差(对过去事件的记忆不准确)、无法建立因果关系(只能发现相关性)。

问卷设计本身就是一门学问。常见的问题包括:引导性提问(“难道不应该……吗?")、双管问题(“政府应该增加教育和医疗投入吗?"——如果同意增加教育但不同意增加医疗怎么办?)、含混的时间范围(“经常"到底是多频繁?)。

📝 案例:1936 年美国总统选举的调查灾难。《文学摘要》(Literary Digest)杂志通过电话和汽车登记名录抽取了 240 万人的样本——在当时是史上最大规模的民意调查——预测 Landon 将以 57% 对 43% 大胜 Roosevelt。实际结果是 Roosevelt 以 62% 对 38% 大胜。问题出在抽样框上:在大萧条时期,拥有电话和汽车的人严重偏向富裕阶层。与此同时,George Gallup 用科学的配额抽样法仅调查了约 50000 人,成功预测了 Roosevelt 的胜利。这一案例成为抽样方法论的经典教训:样本的代表性比样本量更重要

实验方法(Experimental Methods)

实验通过控制变量来隔离因果关系。随机对照实验(Randomized Controlled Trial, RCT)是因果推断的金标准——将受试者随机分配到实验组和对照组,确保两组在所有已知和未知干扰因素上大致相同,唯一差异是实验处理(treatment)。如果结果不同,差异只能归因于处理本身。

RCT 在社会科学中面临独特困难:

  • 伦理限制:不能随机分配人去贫困、吸烟或受暴力
  • 外部效度:实验室中发现的效应在真实世界中是否成立?
  • 霍桑效应:被观察这一事实本身就可能改变行为
  • 实践不可行:无法随机分配人的性别、种族或国籍

因此发展出了多种替代策略:

方法原理适用场景
自然实验利用自然发生的"随机分配”(如彩票、政策边界)政策评估
准实验设计无随机分配但有对照组,利用统计方法控制混淆教育干预评估
断点回归利用政策的门槛值附近的"准随机”最低工资、入学分数线效应
双重差分法比较干预前后 × 干预组与对照组的差异之差政策效果评估

📝 案例:Raj Chetty 的"机会均等"研究。 经济学家 Raj Chetty 和团队利用美国国税局的匿名税务数据(数千万条记录),结合自然实验设计,研究了社区对儿童未来收入的因果影响。他们利用"Moving to Opportunity"项目——随机为低收入家庭提供住房补贴以搬迁到更好社区——发现在 13 岁之前搬到高机会社区的儿童,成年后的收入比留在低机会社区的儿童平均高 31%。这项研究结合了 RCT 的因果推断力和大数据的规模优势,成为定量社会科学的标杆。

二次数据分析(Secondary Data Analysis)

使用已有的数据集(政府统计、行政记录、既有调查数据)进行新的分析。优势是成本低、数据量大、可进行跨时间跨国比较。局限是数据可能不完全符合研究需要(指标定义不一致)、数据质量无法控制。

统计分析的核心概念

信度与效度

概念含义类比
信度(reliability)重复测量是否得到一致结果一把秤每次称同一物体的读数是否一致
效度(validity)是否测量了想要测量的东西这把秤称的是体重还是握力?

高信度不保证高效度(一把校准错误的秤可能每次读数一致但都偏高),但高效度通常蕴含一定的信度。

效度有多种类型:内容效度(测量是否覆盖了概念的所有维度)、构念效度(测量结果是否与理论预期一致)、标准效度(与其他公认的测量标准是否一致)、内部效度(实验中因果推断是否可靠)、外部效度(结果能否推广到其他情境)。

统计显著性与效果量

统计显著性(通常 p < 0.05)表示观察到的模式不太可能是纯粹偶然产生的。但统计显著不等于实际重要——一个极大的样本可以使微小的差异达到统计显著(如两组身高平均差 0.1 厘米)。效果量(effect size,如 Cohen’s d、R²)衡量的是影响有多大,与统计显著性互补。

内生性问题

内生性(endogeneity)是因果推断的核心障碍——当自变量与误差项相关时,回归系数就不能被解释为因果效应。常见的内生性来源包括:遗漏变量偏差(遗漏了与自变量和因变量都相关的第三变量)、反向因果(因变量也影响自变量)、测量误差。

可重复性危机

2010 年代以来,社会科学(特别是心理学)经历了严重的可重复性危机(replication crisis)——大量经典研究在重复实验中无法复现原始结果。

2015 年 Open Science Collaboration 的里程碑式研究尝试重复 100 项已发表的心理学实验,仅约 36% 能够成功再现。原因包括:

问题说明
p-hacking通过多次分析调整来获得统计显著结果
发表偏差期刊倾向于发表"有显著结果"的论文
样本量不足小样本容易产生不可靠的偶然结果
WEIRD 样本绝大多数研究使用西方(Western)、受过教育的(Educated)、工业化的(Industrialized)、富裕的(Rich)、民主国家的(Democratic)大学生样本
HARKing在看到数据后"事后预测”(Hypothesizing After Results are Known)
花园路径数据分析中的众多选择点(排除标准、变量转换、模型选择)构成"分析者自由度"

📝 案例:社会启动效应的崩塌。 心理学家 John Bargh 在 1996 年发表了一项著名的"社会启动"研究:让参与者组合包含"老年"相关词汇的句子后,他们走出实验室的速度变慢了——仿佛词汇"启动"了与老年相关的行为。这一发现被广泛引用,成为社会心理学的经典。但 2012 年 Doyen 等人的严格重复实验未能复现这一效应。Bargh 的研究样本仅 30 人,且未进行双盲设计(实验者知道参与者属于哪个组,可能无意中影响了测量)。此案例成为可重复性危机的标志性事件,推动了预注册、大规模重复和公开数据等改革措施。

可重复性危机不意味着定量方法失败了,而是提醒:统计方法再精密,如果底层的研究实践有缺陷,结论仍然不可靠。危机推动了开放科学运动(open science)——预注册研究假设、公开数据和分析代码、鼓励重复研究、报告效果量而非仅报告 p 值。

定量方法的局限与反思

定量方法的力量——精确性、可验证性、可推广性——同时也是其盲点的来源。

操作化的代价:将抽象概念转化为可测量的指标不可避免地伴随着信息损失。“幸福"被操作化为"主观幸福感量表得分”,“民主"被操作化为"Polity IV 指数得分”——这些指标虽然使跨国比较成为可能,但它们是否真正捕捉了概念的丰富内涵是一个持续的争论。

因果推断的困难:在社会科学中,纯粹的因果推断极其困难。即使是 RCT 也面临外部效度问题——实验室中或特定项目中发现的效应是否适用于更广泛的真实世界情境?因果推断方法的技术进步(如机器学习用于因果发现)并未消除这一根本性挑战。

生态谬误(ecological fallacy):从群体层面的数据推断个体行为。一个国家的平均受教育年限与 GDP 的正相关不意味着国内每个受过更多教育的个人都有更高收入。群体层面的统计规律不能直接应用于个体层面的判断。

定量方法最有效的使用方式是与对其局限性的清醒认识相结合——知道它能回答什么问题,也知道它不能回答什么问题。

💭 延伸思考

  • “不能被量化的就不重要”——这种态度(有时被称为"测量崇拜")在社会政策中有多普遍?GDP 作为衡量国家发展的指标有何局限?
  • 统计显著性(p < 0.05)作为科学发现的门槛标准是否合理?有学者提议提高到 p < 0.005,也有人主张完全放弃 p 值——哪种方案更可取?
  • 在大数据时代,“小样本、低统计效力"的问题是否被解决了?大数据是否带来了新的方法论问题?

📚 参考文献

  1. Creswell, J. W., & Creswell, J. D. (2018). Research Design: Qualitative, Quantitative, and Mixed Methods Approaches (5th ed.). Sage. 定量研究设计的系统指南。
  2. Open Science Collaboration. (2015). “Estimating the reproducibility of psychological science.” Science, 349(6251). 可重复性危机的里程碑式研究。
  3. Angrist, J. D., & Pischke, J.-S. (2009). Mostly Harmless Econometrics. Princeton University Press. 因果推断方法的经典教材。
  4. Fowler, F. J. (2014). Survey Research Methods (5th ed.). Sage. 调查研究设计的权威指南。
  5. Wasserstein, R. L., & Lazar, N. A. (2016). “The ASA Statement on p-Values.” The American Statistician, 70(2). p 值使用的官方指导。