如前面几章所述,基于倾向值统计方法的经验分析在社会学研究中越来越多见(参见胡安宁 2012)。利用倾向值得分的相关统计技术,研究者可以在观测性数据(observational data)的基础上建立一种类似于随机实验(quasi-experimental)环境的匹配样本(matched sample),因此有效地结合了本书第1章中统计学家鲁宾(Donald Rubin)等人提出的反事实(counterfactual)的因果推论理论(Rubin 1997)。可以说,倾向值方法是对传统回归模型的一个重要扩展与突破。
正是由于倾向值方法有着广阔的应用前景,在过去的短短十几年中,这一方法得到了长足的发展。相比较于20世纪90年代倾向值统计方法的运用,新的倾向值方法有三个方面的拓展值得注意。第一,传统的倾向值方法关注二分变量(binary variable),即比较一个实验组(treatment group)和一个控制组(control group)之间的差异。但是社会学研究中所关注的问题绝不仅仅局限于一个仅仅只有两个水平(level)的处理变量。例如,教育社会学领域内关注较多的教育成就这一变量不仅仅只是大学教育及以上、大学教育以下这两个层级。更为细致的分析需要考察小学、初中、高中以及大学四个类别,由此凸显不同教育阶段的质的差异。当代社会的分层也绝不仅仅局限在马克思所假设的那种上层的资本家和下层的工人阶级这两个基本分类之上。相反,现代社会的社会分层是多样化的并且构成了涵盖超过两个层级的分层体系。因此,对于倾向值方法的扩展之一就是如何在统计技术上超越二分的处理变量而关注如何处理多类别(multi-categorical)甚至连续型(continuous)的处理变量。第二,一个完整的因果关系链条往往并不仅仅局限于“由此及彼”这样的关系。心理学的中介效果研究(mediation effect)以及传统的结构方程模型(structural equation modeling)都已经指出,一个因果关系链条往往涉及一个或者多个中介变量。例如,高等教育可以通过提升个人的自我控制能力(the sense of self-control)来促进个人健康(例如,Ross & Mirowsky 2010)。类似的中介关系在社会学研究中可谓比比皆是。因此,单纯地通过倾向值匹配去确定处理变量对因变量的因果效应无论是在理论意义上还是在实践意义上都是不够的,尤其是现代社会学中更多地关注不同变量之间关系的“解释机制”。鉴于此,倾向值模型需要将含有中介性效果的因果关系考虑进来,这正是倾向值方法的另一个突破方向。第三,以往的倾向值方法没有能够超越传统的回归模型中对于“平均效果”(average effect)的追求。和回归模型一样,在21世纪初的很多社会学研究中,学者们采用传统的倾向值匹配来探讨“平均来看,自变量是如何影响因变量的”。和一般回归方法所不同的是,倾向值方法采取了一个更为精致的控制选择性误差的分析策略,这在第3章中已经进行了讨论。然而,这种对于平均效果的关注早已在经验研究中显现其不足之处,即:我们无法探究是否一个变量对于另一个变量的因果效果在不同群体之间是有差异的,即因果关系是否体现出异质性(heterogeneity)。换句话说,我们在探索平均效果的时候实际上隐含地假设了这种效果在我们研究的个体中间都是一样的。无疑,这种隐含的假设和现实情况往往存在距离。因此,如何探索异质性的因果关系也是倾向值方法的重要发展方向之一。
在本章中,笔者将从因果关系的多类别性、因果关系的中介性以及因果关系的异质性这三个方面系统梳理社会科学领域在过去十几年中对于倾向值模型的扩展。这些讨论构成了本章的三个主体部分。在每一部分,除了介绍相关的方法之外,笔者还着重分析了这些新方法的基本假设以及在操作过程中可能出现的问题。其他讨论则放在本章末尾。