回归分析(修订本)(社会学教材教参方法系列)
上QQ阅读APP看书,第一时间看更新

5.4 OLS回归方程的解读

假设回归模型中只包含两个自变量,我们可以把估计后的回归方程表示为:

该方程中的截距项b0xi1=0且xi2=0时,yi的预测值。在实际研究中,截距项并非总是有意义的,因为社会研究中自变量取0值在很多情况下是没有意义的。譬如,我们在研究教育、年龄对收入的影响时,假设x1为受教育年限,x2为年龄,那么回归估计的截距则表示一个受教育年限为0且年龄为0岁的人的平均收入。很显然,这种情况没有任何实际意义。尽管如此,在回归方程估计中,截距项仍然是必不可少的。

与简单回归的情况有所不同,我们将方程的估计值b1b2称作偏回归系数,它们被看作是相应自变量对y的一种偏效应(partial effect)。所谓偏效应,是指在控制其他变量的情况下,或者说在其他条件相同的情况下,各自变量X对因变量Y的净效应(net effect)或单独效应(unique effect)。由式(5-12)我们可以得到:

Δy^i = b1× Δxi1+b2× Δxi2

也就是说,我们可以从自变量xi1xi2的改变量来计算出因变量y的改变量。请注意,这里y的改变量与截距项无关。当我们控制住xi2,即让xi2保持在某一取值处(比如,0或者样本均值)不变,则有Δxi2=0,那么

Δ^yi= b1× Δxi1

也就是说,当我们在回归模型中加入多个自变量以后,我们就可以得到在控制其他变量的情况下某个自变量对因变量y的净效应,该净效应的大小和方向由对应自变量偏回归系数的数值与符号决定。注意,偏效应的前提条件是,其他自变量保持在某一取值处不变。这一点是简单回归情况下不曾涉及的,下面我们对此举例说明。

[例5-1] 教育、工作经历对收入的偏效应

我们用CHIP88数据来考察受教育程度和工作经历对年收入的影响。因变量为个人年收入earn(单位:元),自变量包括受教育年限edu(单位:年)和工作年限exp(单位:年)。在Stata中我们可以估计得到以下回归方程:

如何解读这个回归结果呢?首先,截距项548.36表示当一个人没有受过正式教育并且没有工作经历的情况下,他/她的预期年收入为548.36元。其次,我们从受教育年限与工作年限的回归系数发现,这两者对年收入都有正向影响——因为对应的回归系数都为正数。在控制了工作年限的影响后,个人的受教育年限每增加1年,年收入就平均增加64.63元。换句话说,若两个人工作年限相同,其中一个人比另外一个人多受过一年教育,那么他/她的年收入将会高出64.63元。但是请注意,我们并不是针对现实生活中的两个人,这个结果只是我们的最好预测,是一个平均概念。同样地,我们可以知道,在控制了受教育年限以后,个人的工作经历每增加1年,年收入就平均增加32.12元。

由此可见,多元回归的优势在于它能够提供在控制其他因素以后某一自变量对因变量的偏效应或净效应,即便我们的数据并不能像实验那样真的是在控制其他所有因素后收集得到的。也就是说,我们在抽样的时候并不是在控制个人的受教育程度以后,再收集关于他/她工作经历和收入的数据。但在非实验设计的条件下,社会科学家只能够对观测性数据进行统计控制,进而分析两个变量之间的净关系。