3.8 实例分析_回归分析（修订本）（社会学教材教参方法系列）-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

3.8 实例分析

下面我们将结合上述有关简单回归模型的介绍，利用CHIP88数据来讨论1988年中国城市居民的教育与收入之间的关系。目前有关教育对收入影响的估计大都是在Mincer（1958, 1974）方程的基础上发展起来的。该方程认为教育与收入的对数之间存在以下关系：

log（earn）= b0+b1edu +b2exp +b3exp2

其中，edu代表受教育年限，exp代表工作经历，以工作年限进行测量，exp2代表工作年限的平方。考虑到本章的主题，下面的讨论仅限于因变量为收入对数、自变量为受教育年限的情况。随后的章节将会对更一般的情况加以讨论。

3.8.1 变量处理策略

经过筛选，这里是按照谢宇和韩怡梅文章（Xie & Hannum, 1996）中的要求来确定的。因为该文主要利用CHIP数据考查地区间收入不平等的情况，所以该数据其实是根据多层模型的要求筛选得出的结果。基于CHIP88数据，分析样本由15862名城市居民构成。对于教育这一变量，由于原始问卷中询问的受教育程度是分类变量，原则上可以更为保守地采用一组对应的虚拟变量。我们将在第12章中介绍如何将分类变量转换成虚拟变量。这里，我们把教育这一变量处理为受教育年限这一定距变量。具体编码方式是：少于3年=1、3年以上但未完成小学教育=4、小学教育=6、初中=9、高中=12、技校=13、大专=15、本科和研究生=17。实际上，这种编码转换是可以进行检验的，具体说明请参见谢宇和韩怡梅的论文（Xie &Hannum, 1996），或参考鲍威斯和谢宇有关分类变量分析的专著（Powers& Xie, 2008）。本书第12章对此也略有涉及。此外，收入变量也不是问卷中原本就存在的变量，而是通过将各项收入相加所得到的总和。比如，对于工作人员，其收入主要包括标准工资、浮动工资、承包收入、奖金、津贴、补助和其他现金收入；而对于私营或个体企业主，其收入则主要指税前净收入。

考虑到收入变量（earn）的分布呈现右偏的情况（见图3-8），我们对因变量收入取自然对数，得到新变量logearn，以使其服从正态分布（见图3-9），这样更有利于获得可靠的分析结果。在模型基本假定部分我们曾提到，经过这种转换，最小二乘估计仍然有效。

图3-8 收入变量（earn）分布

图3-9 收入对数变量（logearn）的分布

3.8.2 回归结果分析

对数据进行适当处理后，经过回归分析就可以得到如下的输出结果：

输出结果由三部分组成：方差分析、模型检验拟合统计量和参数估计结果。我们看到，输出结果基于15862个观测案例。模型的F值为247.66，同时检验结果（Prob＞F=0.0000）表明，个人年收入和受教育程度之间具有很强的线性关系。判定系数R2显示，受教育程度解释了个人年收入总变异中的1.54%。根据模型的参数估计结果，年收入对数和受教育年限之间的回归方程可以写作：

模型中受教育程度的回归系数为0.017，这意味着，个人受教育年限每增加1年，个人年收入对数就增加0.017。如果转换成对收入的影响的话，也就是说，个人的受教育年限每增加1年，其收入就增加1.7%。而且，对应的p值小于0.001，这表明，教育的这一影响在0.001水平上统计显著。所以，可以认为，教育对收入的影响在1988年中国城市居民这一研究总体中也存在。图3-10以图形的形式直观地展示了分别基于原始数据和所得回归方程，受教育年限与收入对数之间所呈现的关系。另外，回归方程模型的截距系数的估计值为7.26，它表示，当受教育年限为0时，1988年中国城市居民个人年平均收入的估计值为1422.26（即e7.26）元。

图3-10 回归直线与散点图

3.8.3 估计与预测

输出结果中95% Conf. Interval一栏代表回归系数的置信区间。β1的置信区间为 [0.015,0.019]。预测值的95%的置信区间如图3-11所示。

下面将基于CHIP88数据拟合得到的回归直线，估计出收入对数logearn均值的置信区间，并对单一y值的置信区间进行预测。利用Stata命令中的predict xb取得回归拟合值，用predict se1, stdp取得估计值的标准误，并用predict se2, stdf取得预测值的标准误。所得结果（仅列出前10个个体的情况）如下：

图3-11 回归直线的置信区间

注意，利用-predict-命令估计出的se1, se2, xb的缺失值个数等于变量edu的缺失值个数，而不是没有参与到回归中的缺失个案数。

如果我们要估计受教育年限为12年者的年收入均值，那么利用公式计算收入对数均值的置信区间7.46 ± 1.96 × 0.0037 = 7.46 ± 0.0073，即（7.453, 7.467）。取指数以后得到此人年收入均值的置信区间为（1724.60, 1749.79）。

如果对某个受教育年限为12年的人的年收入进行预测，那么收入对数的置信区间为7.46 ± 1.96 × 0.428 =7.46 ± 0.839，即（6.621, 8.299）。取指数以后得到对此人年收入进行预测的置信区间为（750.79, 4019.37）。由此可以看出，对单一值预测所得的置信区间要比对均值估计的置信区间大得多。

本周热推：

职业伦理与公民道德心智社会：我们的认识决定了我们的世界保守主义（人文与社会译丛）失控：全人类的最终命运和结局（全2册）说服天下：《鬼谷子》的中国沟通术