2.2 倾向值匹配与因果推论
倾向值匹配后的分析不仅仅指出变量之间是否有某种统计关联,而且进一步确立了二者之间的因果性。为了更好地理解倾向值匹配的方法论优势,我们可以从科技哲学和统计学两个研究角度来进行阐释。
2.2.1 科技哲学角度的阐释
倾向值匹配对于因果性结论的支持首先依据的是科技哲学领域内对于因果关系的理论探讨。当谈及因果性的时候,我们往往会回归到约翰·斯图亚特·密尔(John Stuart Mill)对于求同法(method of agreement)以及求异法(method of differences)的讨论(彭玉生2011;Mill[1848]2002;Sobel 1995,1996)。求同法是指在一个群体中所有人都在两个变量上取值相同(例如所有人都上了大学,同时所有人都是高智商)而在其他变量上取值不同(他们不全是女性,不全是农村居民,等等),那么这两个变量之间(大学教育和智力水平)就具有因果关系。求异法是指两个个体在因变量上的取值不同,而在某个自变量之外的其他自变量上的取值相同,则那个取值不同的自变量和因变量之间存在因果关系。正如彭玉生在他的论文中所论述的那样,密尔的这两种探索因果关系的方法对于后来的统计实验设计产生了巨大影响(彭玉生 2011)。无论是求同法还是求异法,二者都要求对于关键自变量之外的其他自变量进行某种程度的控制。只有其他自变量满足特定的条件时(求同法要求其他自变量的取值都不一样,求异法要求其他自变量的取值都一样),我们才能够确定某种因果关系。这恰恰是引入了控制的思想,即只有控制了其他变量之后,我们才能够真正确定我们关心的两个变量之间存在因果关系。
从控制的角度出发,倾向值匹配十分巧妙地完成了对于多个混淆变量的控制。这里我们从一个混淆变量的情况谈起:假定只有个人智力水平混淆了大学教育和收入之间的关系。一个比较直观的控制个人智力的办法是将个人智力这一变量细分(sub-classification)成不同层次以保证每一个层次中的人的个体智力水平近似。这时我们在各个层次内部观察大学教育和收入的关系,最后将这些关系综合起来(Rubin 1997)。如果存在两个混淆变量(例如家庭经济背景好坏和个人智力高低),我们可以将两个混淆变量交互分成2×2=4个小组,组内个体在这两个变量上的取值都是一样的(1=家庭背景好且智力高;2=家庭背景好但智力低;3=家庭背景不好但智力高;4=家庭背景不好且智力低),在每组内部观察大学教育和收入的关系,然后平均起来。至此,通过细分的方法,我们完成了控制混淆变量的工作。但是随着混淆变量越来越多,这种细分法就变得十分不方便了。例如,如果我们要控制5个混淆变量,每个变量有5个取值水平,我们就需要划分55=3125个小组。很快我们的数据就不够保证每个小组都有观测个体。倾向值匹配的办法巧妙地解决了这个多混淆变量下的“多维”(multiple dimensional)问题:它不再关注需要控制的单个混淆变量的具体取值,转而关注将这些变量纳入逻辑斯蒂回归方程后预测出来的倾向值取值。罗森鲍姆和鲁宾证明,只要保证倾向值匹配,所有这些需要控制的混淆变量就都考虑到了(Rosenbaum & Rubin 1983)。这样做实际上将对多个混淆变量的控制转为对倾向值的单一控制,从而达到“降维”(dimension reduction)的目的。换句话说,无论有多少需要控制的混淆变量,我们都能够通过倾向值匹配的方法将它们控制,从而帮助我们得出因果性结论。因此,从控制的角度出发,倾向值匹配的方法很好地解决了多混淆变量时的控制问题,从而支持了因果推论。[2]
2.2.2 统计学角度的阐释
倾向值匹配的因果推论功能也能够通过第1章谈到的统计学视角进行阐释,即反事实的理论框架(counterfactual framework)。如第1章所言,反事实是指相反情境下的某种状态。自变量X对于因变量Y的因果性效果在统计学意义上就是指这“同一群人”在实验组时的Y的取值和在对照组时的Y的取值之间的差异,亦即可观察到的“事实”与其“反事实”之间的差异。故而,从反事实的理论框架出发,因果性的关系可以表示为:
Τ=π[E(Y1|w=1)-E(Y0|w=1)]
+(1-π)[E(Y1|w=0)-E(Y0|w=0)]
=[πE(Y1|w=1)+(1-π)E(Y1|w=0)]
-[πE(Y0|w=1)+(1-π)E(Y0|w=0)](反事实框架下的因果推论公式)
在这个公式里,Τ是指因果关系,π是指所有调查对象在实验组中的比例,1-π表示所有调查对象在对照组的比例(例如1/3是大学生,那么π=1/3,没上大学的人的比例就是1-π=2/3),w是一个二分变量,其中,1代表个体在实验组,0代表个体在对照组,Y1和Y0分别指代实验组和对照组的成员在因变量上的取值,E则指期望值。在上述公式中,E(Y1|w=1)或者E(Y0|w=0)是可观测到的事实,而E(Y1|w=0)和E(Y0|w=1)则是反事实。[3]因果关系T就表示实验组中的个体其“事实”与“反事实”之间的差异[即E(Y1|w=1)-E(Y0|w=1)]与对照组中的个体其“事实”与“反事实”之间的差异[即E(Y1|w=0)-E(Y0|w=0)]的加权平均值(权重分别为π和1-π)。
但是问题在于,我们永远也不可能观测到反事实是什么,因为在某项特定的研究中,某一群人只可能在实验组或者对照组,而不能同时在两组中出现。为了做出因果推论,我们需要用可观测到的E(Y1|w=1)和E(Y0|w=0)来简化上面的因果推论公式。具体而言,我们希望能够满足以下条件,这在统计学上称为“非混淆假设”(unconfoundedness assumption)。
E(Y1|w=0)=E(Y1|w=1)以及E(Y0|w=0)=E(Y0|w=1)(非混淆假设)
不难看出,如果满足非混淆假设,反事实框架下的因果推论公式就简化为:
T=E(Y1|w=1)-E(Y0|w=0)(简化因果推论公式)
由于简化因果推论公式右边的两项均能够直接观测到,我们就能够做出因果性结论。因此,从反事实框架出发,能否做出因果推论主要取决于非混淆假设是否满足[4]。随机化是统计学中常用的办法,由于实验个体是通过随机的方式分配到实验组和对照组中,w本身就和最后的实验结果Y1或者Y0没有关系了[5]。此时,无论w=0还是w=1,E(Y1)或者E(Y0)的值都是固定的,进而E(Y1|w=0)=E(Y1|w=1)并且E(Y0|w=0)=E(Y0|w=1)。但是,对于基于调查资料的社会学研究来讲,我们很难做到随机化。为了满足非混淆假设,我们能做的是尽可能控制混淆变量,并保证这些变量一旦被控制起来,w就能够近似地和Y1或者Y0保持独立,换句话说,我们希望做到:
E(Y1|w=0,X)=E(Y1|w=1,X)以及
E(Y0|w=0,X)=E(Y0|w=1,X)(非混淆假设:控制变量)
上式表明,只要能够找到并控制混淆变量X,我们就能够近似地做到w独立于Y。在倾向值匹配中,所有的这些X通过逻辑回归总结成为一个特定的倾向值P,而非混淆假设就是通过控制倾向值P来满足的。即:
E(Y1|w=0,P)=E(Y1|w=1,P)以及
E(Y0|w=0,P)=E(Y0|w=1,P)(非混淆假设:控制倾向值)
至此,通过控制倾向值,我们可以近似地满足统计学反事实框架下的非混淆假设从而做出因果推论。之所以是近似,是因为控制倾向值的效果毕竟不是真正的随机化。很多时候我们很难知道我们是否已经控制了需要控制的“所有”混淆变量。正是因为如此,在完成倾向值匹配以后我们通常需要进行敏感性分析(sensitivity analysis)。正是在这个意义上,倾向值匹配只是努力地满足反事实框架下的因果推论条件。至此,我们已经从统计学意义上理解了倾向值匹配为什么能够帮助我们得出因果性结论。关于敏感性分析的基本原理,参见本章附录。
需要指出的是,非混淆性假设也可以通过类似结构方程模型这样的图示方法表示出来。在这方面,朱迪亚·珀尔(Judea Pearl)的研究是具有突破性的。按照珀尔的研究,如果用数学图论的方式来表示因果关系,则非混淆性假设可以表达成一个后门标准(backdoor criterion)。如果混淆变量Z满足自变量X和因变量Y之间的后门标准,那么,Z中没有变量是X引起的,且Z中包含所有连接X和Y的箭头,这些箭头囊括了指向X的混淆变量。单纯地陈述后门标准是比较抽象的。这里采用珀尔经常用到的一个经验例子来展示珀尔的理论(Pearl 2009)。
如图2-1(a)所示,我们所关心的变量之间的关系是从X到Y的,那么当Z包含混淆变量U3和U4的时候,或者Z包含混淆变量U4和U5的时候,Z满足后门标准。此时,控制了Z实际上就满足了非混淆性假设。这是因为在同时控制U3和U4(或者同时控制U4和U5)的时候,所有指向X并且勾连X和Y的线都被屏蔽掉了[如图2-1(b)和图2-1(c)所示]。[6]但是如果我们只是控制U4,就不能够满足后门标准。例如,如果我们只是控制U4,则X和Y的关系可以通过U3←U1→U4←U2→U5这条路径连接起来[如图2-1(d)所示]。这实际上就违反了非混淆性假设。对于如何通过数学图形的形式来表示变量之间的因果关系,有兴趣的读者可以参阅珀尔(Pearl 2009)。
图2-1 珀尔的因果推论:后门标准