社会学方法与定量研究(第二版)
上QQ阅读APP看书,第一时间看更新

5 因果推理

首先举几个因果关系问题的例子。第一个例子是:“9·11”事件会使美国人感到恐怖吗?如果会的话,“9·11”事件就是因,美国人感到恐怖就是果,是“9·11”事件导致了美国人的恐怖感。第二个例子是:你们来参加我的这次方法论系列讲座有收获吗?如果有收获的话,你们参加讲座就是原因,收获知识就是结果。如果你们不来参加这个讲座可能就没有这种收获,但可能会有别的收获。由以上例子可以看出,因果关系问题在形式上是一个简单的问题,它包含了两个理论性概念——原因和结果——之间的关系。是不是有原因就会导致结果呢?如果把原因变量定义为X,把结果变量定义为Y,是不是有XY?这就要求我们正确地理解因果关系。因果关系是所有科学研究的基本目标。通过研究因果关系,我们可以准确地预测未来,为政策干预提供科学根据,还可以验证和丰富认识客观世界的理论知识。

为了理解因果关系,我们先引入简单比较的概念。简单比较是一种简单的方法,就是比较干预组(treatment group)和控制组(control group)。下面我举一个例子来说明这种简单比较的方法。在一个社区内,X1个儿童参加了一个启蒙教育项目(Head Start),这些儿童就是干预组;而另外X2个儿童没有参加这个项目,这些儿童就是控制组。27年后再来测量这两组人各自的受教育水平。我们用Y1来表示参加了启蒙教育项目的干预组儿童的受教育水平,用Y2来表示没有参加启蒙教育项目的控制组儿童的受教育水平。结果是:受过启蒙教育的儿童的受教育水平比没有受过启蒙教育的儿童的受教育水平要低。那么我们是否可以得出这样的结论:启蒙教育项目对受教育水平有负向作用?20世纪60年代,Westinghouse就报告了这个结果。Cicarelli, V. G. , I. W. Evans, and T. S. Schiller.1969. The Impact of Head Start: An Evaluation of the Effects of Head Start Experiences on Children's Cognitive and Affective Development. Athens, OH:Westinghouse Learning Congnitive and Ohio University.从观察到的数据来看,参加启蒙教育项目与受教育水平的关系好像是负向的。但是,我们这里忽视了一个变量的作用,就是家庭社会经济地位。参加启蒙教育的儿童一般来自贫困家庭,因此得到政府资助参加这个项目;而那些没有接受启蒙教育的儿童来自比较富裕的家庭,他们的父母能够提供较好的学习环境,因此这两组人不具有可比性。在这个比较中把家庭条件较好的儿童定为控制组就是不合理的,因为在家庭经济地位的影响下,我们看不出参加启蒙教育与不参加启蒙教育对贫困儿童受教育水平的影响。因此在这个干预中不应该把家庭经济地位较好的儿童设为控制组,而应该选择两组都是来自贫困家庭的儿童,一组作为干预组,另一组作为控制组,再来测评启蒙教育对他们受教育水平的影响,这才有意义。

另外一个例子是加州伯克利大学研究生录取的性别比例问题。我们先来看一下总的录取数据(见表5-1)。

表5-1 加州伯克利大学研究生录取分性别数据表

表面上看,好像男性的录取率要比女性高,但实际上是不是这样呢?我们来看一下具体分专业的录取率(见表5-2)。

表5-2 加州伯克利大学研究生录取分性别、分专业数据表

从专业的录取率来看,女性报考集中在录取率较低的热门专业,但在这些专业中女性的录取率比男性还要高。在其他相对冷门的专业里,女性的录取率都不比男性低。但是,为什么总的录取率中,女性会比男性低很多?主要是因为大部分女性集中报考那些录取率比较低的热门专业,其总录取率必然较低。男性虽然也有不少人报考了录取率较低的热门专业,但是他们中还有很多人报考了其他录取率较高的专业,因此平均下来,男性的总录取率会高于女性。因此加州伯克利大学在录取研究生时是没有性别歧视的,只是一些人只看到了表面数据,而没有深入分析。所以,我们在考虑原因、结果之外的第三个因素时,要考虑到它同时和原因、结果是什么关系,后面我会系统地讲到。假如要使男女总的录取率相等,有两种做法:一种是使录取率没有专业之间的差异,假如专业的录取率之间没有差异,男女报考不同的专业也不会导致总的录取率的差异;第二种做法是,改变专业之间的男女不平衡,女的也去学工科,而不是全都去报考像法律这样热门的专业,这样即使专业之间的录取率不同,也不会导致前面的结果。这两个因素的结合才最终导致了前面看到的结果。

在这个案例中,性别与专业选择有关系,性别影响专业选择;专业与录取率又有关系,不同的专业有不同的录取率,录取率在各专业之间有很大的差异。女性多的专业录取率较低,男性多的专业录取率较高。这两点加起来就导致了在总录取率上男性要高于女性。如果你忽略了专业这个变量,你就可能认为有性别歧视,实际上这个差异并不是伯克利造成的,而是在伯克利之外存在的,是社会现象,不是伯克利的现象。当然确实有不平等现象,从社会的角度来说是不平等的,但不是某个学校造成的。

下面,我们来看一下其他三个社会学案例。这些题目没有正确答案,我只想告诉你们现在的情况,提出来让你们思考。

第一个是从受教育水平来看,兄弟姐妹多好还是独生子女好?独生子女受教育水平高还是有兄弟姐妹的孩子受教育水平高?我想听一下大家的意见。


学生一:我认为这个问题要从两个方面来看。一个是当经济发展水平较高,家庭收入相对较高,受教育机会均等时,多子女之间由于有相互协作,他们的受教育水平就会比独生子女要高。当经济发展水平较低,家庭普遍比较贫困时,独生子女的受教育水平就会相对比较高,因为这个时候受教育的机会不均等,子女多的家庭难以支付所有子女的上学费用。

谢宇:你分析得很好,你的分析里面包含很多观点。其中一个是资源稀释(resource dilution)的观点。家庭子女越多,父母能够在精神上、感情上、经济上给予每个小孩的照顾就会减少,特别是经济上的。所以子女多了,他们的受教育水平会较低。还有人讲子女之间有帮助与合作精神,认为长子女对年幼子女会有很大帮助。但是总体上来讲,从多子女家庭出来的人受教育水平较低,而从子女少的家庭出来的人受教育水平较高。但这是不是一个因果关系,我们不知道。虽然从子女少的家庭里出来的人受教育水平高这个关系是成立的,但这个关系不一定是因果关系。比如像在美国社会,家庭的孩子数量可以多可以少,可能数量少就更重视质量,但两者是否存在因果关系,这到现在也还是一个有争议的问题。


第二个问题现在也是很有争议的,就是在婚前同居过的人离婚的可能性大还是没有在婚前同居的人离婚的可能性大?我还是先听一下你们的看法。


学生一:我认为婚前同居会增加婚姻的稳定性,因为婚前同居会使相互之间加强了解,增进认识,形成较稳定的认同,这会使他们的婚姻更加稳定。

学生二:我认为婚前同居不利于婚姻的稳定性。从观念上考虑,选择婚前同居的人一般是观念比较开放的人,他们在结婚以后如果遇到挫折的话也会很轻易地选择离婚;而那些不经过婚前同居而结婚的人受传统观念影响较大,他们就会很看重婚姻的稳定性,不会轻易地离婚。

谢宇:从理论上来分析,结论和第一位学生比较接近。因为第一,同居关系的确立会增进相互之间的了解;第二,同居会有一个投入,促进感情;第三是选择性,假如同居时发现不好,就不会结婚了。但是,实际上,在婚前同居的人离婚的可能性比没有在婚前同居的人离婚的可能性要大。为什么呢?原因就跟第二个同学讲的差不多,选择同居和不选择同居的人在观念上存在差异:选择同居的人一般观念比较开放,他们会轻易地选择同居的话,他们在结婚以后如果相互之间出现矛盾,他们也会很容易地选择离婚;不通过婚前同居而直接结婚的人,他们的观念相对比较传统,会比较重视婚姻的维系。因此婚前同居并不一定会增加婚姻的稳定性。


案例三是接受了大学教育后有什么回报?你们都上了北大,将来都会挣很多钱,但是当你挣到很多钱的时候,你是不是会认为能挣这么多钱是因为你在北大受教育的结果?在考虑这个问题的时候,我们不能通过比较上大学的人和没有上大学的人来获得认识,因为我们不知道上大学的人如果他现在没有上大学的话,他会是什么状况;而那些没有上大学的人,他们如果上了大学后又会是什么状况。这些都是我们无法知道的。因此,我们直接把上大学的人和没有上大学的人放在一起比较是不科学的。那么,我们能不能通过干预来获得对这个问题的认识,就是我们能不能让一个人既去上大学又不去上大学,然后再来比较上大学与不上大学的区别呢?这显然是不行的。当一个人去上大学时,我们就不能知道如果他不上大学会是什么样;如果一个人没有上大学,我们也不会知道如果他上了大学会是什么样。这是无法通过干预来获得认识的。

因此,归根结底,因果关系问题实际上是一个反事实问题。就是你在做某一件事情的时候,要反过来想一想,如果你没有做这一件事情,情形会是什么样的?因此,在做因果推理的时候我们必须考虑反事实的问题。对于那些接受了干预的人,你要想如果他们没有接受这种干预会是怎样的情况。比如那些受过启蒙教育的儿童,假如他们没有受到这种启蒙教育,他们会怎样呢?对于那些没有受过干预的人,你要想如果他们接受了干预,又将是怎样的状况?对相同的人来讲,受到干预和没有受到干预,会有什么区别?独生子女没有受过非独生子女的待遇,非独生子女也没有独生子女的经历。婚前同居的人不知道婚前不同居的人的感受,婚前不同居的人也不会了解婚前同居的人的体会。因此,我们在想问题的时候不仅要想组与组之间的差别,更要想同一组人在两种不同情况下的差别,因为这是一个反事实的问题,我们根本不可能通过干预得到验证。

这里就有一个很现实的缺乏数据的问题。对于一组人,我们只能知道他在一段时间内做一件事情的情况,而不可能知道他在这个时间内如果去做其他事情会是一种什么情况。比如对一个上大学的学生,我们不可能获得他不上大学的情况的数据,对一个婚前同居的人也不可能知道如果他婚前不同居会是什么情况。但是,这种数据的缺乏并不能阻止我们通过逻辑思维来对这个问题进行思考。为了简化问题便于思考,首先就需要引进假设。但是我们引入假设也是有代价的,假设是否合理会直接影响到结果的正确与否。因此你必须从最牢靠、最基本的现象来看问题,必须把你的假设建立在事实的基础上。你的结果错了有可能是因为你的假设有错误。但是由于我们无法获得反事实现象的数据,我们不得不通过引入假设推进逻辑思维。这就引入了简单比较所需假设的问题。

如果干预组对象与控制组对象大体上是相当的,那么可以用这样的假设来简化问题。这里说大体上相当,是因为他们之间的差异还是存在的,比如性别上的差异、年龄上的差异,但是通过大样本取平均值就可以忽略不计。就是假如组与组之间只有接受干预和不接受干预之间的差异,而没有其他的差异的话,我们就可以简化问题。对于第一组,我们知道他们接受干预的情况,但我们不知道如果他们没有接受干预会是什么情况。我们可以假设他们和控制组是差不多的。因此,他们没有接受干预的情况会和控制组没有接受干预的情况差不多,即。同样,对于控制组,他们没有得到干预,我们不知道他们得到了干预后会是什么情况。我们也可以假设控制组和干预组是大体上相当的,控制组接受了干预的情况就会和干预组接受干预的情况差不多,即。当这两个假设都成立时,第一组的干预效应等于第二组的干预效应:。一般我们做简单比较时会有代价,这种代价就是因为我们认为受干预的和没有受干预的组大致是相同的。只有在大致相同的假设下才可以用简单比较的方法。比如前面讲的例子,假设婚前同居的人和婚前不同居的人在观念上、性格上大体是一样的,如果这个假设成立的话,我们就可以对同居和不同居的人进行简单比较。另外一个例子是上大学的人和不上大学的人,假如他们之间在能力、年龄、机会和把握机会的能力上是基本相同的话,我们也可以对他们进行简单比较。但是如果假设不成立的话,你得到的结果就会有很大的偏误。而当你的结果出现偏误的时候,你也会知道你可能是在假设上出了错误。在现实情况下,很多假设一般是不成立的,你只能在干预的时候通过对外部因素进行限制和排除才能使这种假设成立。比如婚前同居的人和婚前不同居的人,他们在观念上、生活习惯上、个性上就会存在很大的差异,他们之间是不会大体上相同的;上大学的人和不上大学的人在能力、个人兴趣等方面也是有很大差异的,我们也不能把他们完全等同。而这些东西又是我们不能通过干预来排除的。我们不能强制一些人婚前同居,一些人婚前不同居;我们也不能强制一些人去上大学,一些人不去上大学。所以用简单比较的方法计算干预的回报率,得到的结果会偏高。

为什么是偏高而不是偏低,这是一个比较具体的问题,叫做忽略变量偏误。这种偏误是不可避免的,但是我们必须把这个偏误的方向搞清楚,就是我们要知道为什么会有偏误,偏误是正的还是负的。如果干预组与控制组对象在观察到的有关特征上具有明显差异,那么这种选择性就被称为观察到的选择性。我们社会科学方法论上最头痛、最难解决的问题就是选择性的问题。人的行为是理性的,他做一件事情的时候会有他的道理,结婚也好,同居也好,这都是他自己的选择。假如这里所有的选择性我们都能够观察到,那我们还能够解决,比如第一个启蒙教育项目的例子,这里的选择性假如是由于家庭经济地位造成的,那么我们就应该对这些家庭的经济状况进行测量。关键是有很多是我们观察不到的选择性。

要解决选择性的问题,有一种方法是把所有可能的选择性全部都找出来,因为这些因素可能导致我们得出的因果关系是假的。也就是说,假如某些变量是重要的,但是你忽略了这些变量,就有可能会导致忽略变量偏误。在多元分析当中,我们可以通过统计控制,使两个组具有可比性,从而解决选择性问题。干预组和控制组是有差异的,但是我们可以通过统计的方法来对他们进行控制,使他们达到基本相同。比如,如果我们不考虑年龄的因素,我们会发现佛罗里达州的死亡率会大大高于其他州,为什么呢?当我们从年龄结构上去分析时就会发现,佛罗里达州的老年人远远多于其他州,这就直接导致了它的死亡率很高。所以当我们忽视了年龄这个变量的时候就会导致忽略变量偏误。因此,你在做统计的时候,就要尽可能地考虑到所有能够产生影响的变量,这就是我们做多元分析的基本点。在因果关系里我们想知道的就是两个东西:一个是因,一个是果。由于组与组之间存在差异,所以我们在针对一个结果去找原因的时候就要想到多个因,通过多元分析来掌握其中的因果关系。这就是为什么统计很难做,为什么问卷要设计得很长,就是因为我们要尽可能地考虑到可能对某个结果造成影响的各个变量。

但是,并不是所有的简单比较都会造成忽略变量偏误。忽略变量偏误要成立的话,必须满足两个条件。这两个条件缺少其中的任何一个,忽略变量偏误都不会出现。第一个是有关条件(relevance condition),就是你忽略的变量要能对因变量产生影响,也就是你忽略的变量要与结果有关系。第二个是相关条件(correlation condition),就是你忽略的变量要与主要的自变量相关。第一个是要和果有关系,第二个是要和因有关系,只有这两个条件同时成立才可能造成忽略变量偏误。在伯克利分校录取率的案例中,专业与录取率(因变量)有关,因为不同的专业录取率不同。而且专业与性别(主要自变量)相关,不同性别的学生集中在不同的专业。所以,忽略了专业这个变量时就会造成忽略变量偏误。如果专业和录取率没有关系,或者专业与性别没有关系的话,就不会出现忽略变量偏误。只有当专业与录取率和性别都有关系时,忽略了专业才会造成忽略变量偏误。另一个就是同居与离婚率的关系问题,如果观念与选择婚前同居没有关系,或者与结婚后的离婚选择没有关系,就不会出现忽略变量偏误。正是因为人的观念既影响了婚前对同居的选择,也影响了婚后对离婚的选择,因此忽略观念在这两者中的作用就会导致忽略变量偏误。找出同时与因和果都有关系的变量是一个很重要的训练,下一个训练是看这个忽略变量的影响是正的还是负的。

下面来看一个例子,我们这个社会对两样东西非常感兴趣:一个是钱,一个是婚姻。我要举的这个例子把这两样人们最感兴趣的东西都包括了。这个案例就是在美国社会有一个很奇特的现象,婚礼花费的费用越高,婚姻的稳定性越强。这一结果是否忽略了有关变量?首先,请你们想想为什么婚礼的花费会对婚姻的稳定性产生正向影响呢?


学生一:因为婚姻花费越高,沉没成本越高,而这种沉没成本是无法回收的,因此在他们花费了巨额的开支而结婚后,如果要离婚的话,一是意味着他们投入的沉没成本没有获得收益,第二,他们会考虑下一次再结婚又要投入很大的沉没成本,因此他们更可能会选择维系现存的婚姻。

学生二:我觉得有两个原因,一个是如果他的婚礼办得比较大,就会牵动较多的关系,当他们要选择离婚时,要面对比较大的舆论压力;另外一个是他的婚礼花费高意味着他的经济条件比较好,而经济条件好的家庭更容易维系婚姻。

谢宇:你们讲得很好。在美国,婚礼的费用一般是由女方家庭来出的,你们讲的成本、舆论压力、经济条件都是影响婚姻稳定性的因素。婚姻本身的稳定性并不是由钱这一方面的因素造成的,它还通过很多中间变量在起作用。简单地说,婚礼花的钱多,婚姻的稳定性就高,也是忽略变量偏误导致的错误结论。因此这不是一对真正的因果关系。


现在,我们来讲忽略变量偏误的可能情况和偏误的方向。忽略变量偏误有三种情况。在这里我们规定,忽略的变量用Z表示,原因用X表示,结果用Y表示,ZX的关系是C, ZY的关系是B。在第一种情况下,Z分别是X、Y的决定因素。如果BC有相同的符号,那么忽略变量Z导致的偏误是正的;如果BC符号相反,那么忽略变量Z造成的偏误则是负的。比如,假设X是受教育水平,Y是职业,Z 是智力水平,智力水平是受教育水平和职业的决定因素,它会对这两者都产生影响。智力水平对职业的影响是正向的,对受教育水平的影响也是正向的,因此如果你忽略了智力水平在这两者之间的关系,造成的偏误就会是正的。第二种情况是ZX相互影响,而不是Z导致了X,并且ZX同时是Y的决定因素。如果ZY的关系BZX的关系C具有相同的符号,那么忽略变量造成的偏误是正的;如果BC的符号相反,那么忽略变量造成的偏误则是负的。第三种情况是ZX作用于Y的一个中间变量或是解释变量。如果BC有相同的符号,那么忽略变量Z导致的偏误是正的;如果BC符号相反,忽略变量Z造成的偏误则是负的。比如女性的数学成绩比较低,假设数学成绩对职业选择有很大的关系,如果忽视了数学成绩在性别和职业之间的关系,就会造成负的偏误。

下面我们讲的一个比较重要的东西是关于倾向分数(propensity score)的。倾向分数PT)表示受到干预的概率。如果存在观察到的选择性,倾向分数就是观察到的变量Z(向量)的一个函数。我们可以通过logit模型来估计倾向分数的值。假设没有其他被忽略的相关因素,在我们估计得到的倾向分数的范围内(即低于受到干预的概率时)可以认为干预组和控制组是大致相当的。这样仅仅通过倾向分数这一个维度就能够对忽略变量偏误加以修正了。倾向分数是1984年被发现的,发现之初并没有很多人使用,但是现在用的人比较多。

最后我要讲概率性的因果关系。我们讲的因果关系都不是绝对的,而是概率性的。概率性的因果关系决定了我们只能做相对的平均值分析,做趋势的分析,而不能做绝对的分析。在这种分析中我们要讲到嵌套的原因。概率性原因对个案的分析是不适用的。另外,我们还会讲一下回归和相关在因果关系分析中的作用。我们第一个要讲的是同因不同果。在把概率论运用于研究因果关系之前,因果关系是决定性的。我们讲的这种决定性是针对概率性和随机性的。变异是社会科学的本质,相同的原因会导致不同的结果。变异又分为总体变异和时间变异。总体变异是不同个体之间的差异,比如在座的同学,你们同样是听了两个小时的讲座,但是你们对这个讲座的接受程度就不一样,有的人接受得较快,有的人较慢,这就是总体内个体之间的差异。时间变异是相同个体在不同时间的差异,比如不同的时候,人的态度、人的反应是不一样的。概率性的原因就是强调平均值和趋势。随着样本规模的扩大,因果关系渐趋近于平均值,但是这种平均值并不是针对个案而言的。这个概率性原因有两层含义:一个是有原因不一定有结果,比如子女多的家庭未必子女的受教育水平就低;另外一层含义是结果可以在没有某个原因的情况下发生,比如吸烟与肺癌之间的关系,一个人得了肺癌不一定就是因为他吸烟造成的,虽然在统计上,吸烟与肺癌有直接因果关系,但是这种因果关系并不是决定性的。第二个要讲的是嵌套原因,嵌套原因是必要条件而不是充分条件,这事实上是一个风险问题。另外,概率性原因对个案是不适用的,只有在有重复事件时,概率性的因果关系才会有意义。概率论的基础是重复,假如没有重复,就不可能有概率,也不会有概率性的因果关系。假如你要研究很具体的事件,我建议你不要用统计的方法,这基本上是行不通的。第三个要讲的是相关和回归,它们是发现因果关系的工具,这个我在以后的讲座中还会着重讲。相关和回归是一种分析的方法,但是两个事情相关并不代表它们之间存在概率性的因果关系,因为相关所反映的关系可能有很多种,不仅仅是因果相关,因此大家不要把相关当作因果。