我们在阅读国内外社会学领域的各种学术期刊[例如《美国社会学评论》(American Sociological Review)、《美国社会学杂志》(American Journal of Sociology)、《社会学研究》]时,会时不时地遇到诸如“因此”、“所以”、“其原因在于”这样的词语。这样的表述实际上隐含了一种“因果关系”(causal relationship)或者“因果性”(causality)。在今天的社会科学研究中,因果关系已经成为社会科学家们对某种社会现象进行“科学”解释的同义词。学者们希望通过各种途径来确定两个或者多个变量之间的关系(例如自变量对因变量的影响),并且他们并不满足于确认“这个变量和那个变量之间有关系”,而是希望能够回答“变量A对变量B的因果关系是什么”这样的问题。正因为如此,我们在阅读那些经过同行审查(peer-reviewed)的论文时,已经很难找到这样一篇论文,其中作者的最后结论仅仅是“通过研究,我们发现某两个变量是在95%的置信区间水平上显著相关”。相反,现代社会学的研究者希望能够回答的问题是:变量A和变量B之间究竟是谁在影响谁?进一步讲,这种因果关系的形成机制(mechanism)是怎样的?
那么,社会科学研究一般是通过何种方式进行因果关系探索的呢?如果说早期的社会科学理论家们是通过逻辑论证或者总结个体化的有限经验来进行因果分析
然而,我们却不能简单地将统计模型的应用和因果关系的确立等同起来。例如,一个经验社会学研究者常常会遇到的问题是,常规意义上的统计分析(例如基于最小二乘法的多元回归)能否帮助我们建立严格意义上的因果关系。换句话说,当我们用诸如一般多元线性回归这样的“常规”方法进行数据分析并得到相关变量之间的关系时(例如估计出的回归系数),这种关系是否就代表了一种因果关系呢?对于这个问题,很多学者的答案是肯定的。我们发现,在很多社会科学研究中,大量学者将方差分析、线性回归或者广义线性回归模型下得到的系数进行某种因果性的解读。一个很经典的例子便是教育水平和收入的关系。无论是教育社会学研究还是经济学研究都倾向于认为“教育为因,收入为果”,并由此阐发相关理论(例如著名的人力资本理论和经济学中的收入决定模型)。然而,本书下面几章的讨论将会告诉我们,这些基于传统回归模型的分析依旧没有脱离对相关关系(correlation)的依赖,从而并不能够称得上是严格意义上的因果关系。回到上面的例子,当我们用个人特征(例如年龄、性别、户口以及教育水平)去预测个人收入水平,我们一般会发现教育和收入之间的系数是正的,而且这种相关系数往往在统计推断的意义上是显著的。但是,这里我们得到的系数实际上是一种条件概率(conditional probability),即在控制了年龄、性别与户口这些所谓的“控制变量”之后特定教育水平下收入的均值情况(Tu,Gunnell,& Gilthorpe 2008)。这种条件概率依旧是在分析教育和收入的“相关性”而非“因果性”。那么,是不是这就意味着传统的统计模型(线性回归以及方差分析等)就无法用来探索因果关系了呢?答案是否定的。一般而言,在两种情况下,我们认为经过常规统计模型得出的结论能够代表某种因果关系。其一是在研究设计的时候采取严格的随机实验控制,以保证被研究的个体随机分布于某种处理变量