回归分析(修订本)(社会学教材教参方法系列)
上QQ阅读APP看书,第一时间看更新

3.6 对特定X下Y单一值的预测

在3.5节中,我们根据样本中的X,对回归直线上相应的Y值进行估计,得到的估计结果实际上是Y的条件均值或条件期望。如果我们希望基于一个新的X值预测对应的Y的值,不难想象在这种情况下Y的取值将会有更大的置信区间。由于随机项ε的存在,特定xi(仍记为x)下的y不落在回归直线 b1x上,而是服从于以回归直线为均值、以为方差的分布。估计量和相应的估计标准误见表3-3。

表3-3 对Y值预测的统计量和标准误

根据表3-3,在95%的置信水平下,预测某xy的置信区间为:

同样地,由于总体误差的标准差σε是未知的,用误差标准差的样本估计Se作为σε的估计,则可以得到在95%置信水平下,对特定XY单一值的区间估计为:

[例题3-1] 假设我们试图对某一社区中个人的受教育程度(X=edu)对年平均收入(Y=earn)的影响进行研究。我们从该社区中随机地收集到11名个体的受教育年限(单位:年)和年平均收入(单位:千元)数据(见表3-4)。

利用该数据:

(1)判断最佳拟合直线方程;

(2)计算直线的拟合优度;

(3)检验数据是否支持年平均收入受到个人受教育程度的影响(显著度α=0.05)这一假设;

(4)在95%置信水平下,估计受教育年限为12年者的年平均收入;

(5)预测当edu=20时,某个人的年平均收入。

表3-4 某小区11个个体的年平均收入与受教育年限

(1)通过上表计算出:

因此,回归直线为:

(2)拟合优度的判定系数R2的计算。可以先计算受教育年限与年平均收入之间的相关系数,然后利用简单回归情况下这一关系式得到相关系数:

所以,上述回归直线拟合优度的判定系数R2=0.51。也就是说,回归方程能够解释年平均收入总方差中的51%。

(3)检验受教育年限对年平均收入的影响是否显著,实际上就是检验β1是否等于零。

零假设H0: β1=0

备择假设H1: β1≠0

计算检验统计量:

由于

,所以

因为在α=0.05处,t0.025(9)=2.26<3.10,所以,拒绝零假设β1=0。这表明受教育年限对年平均收入有显著影响。

(4)当edu=12时,估计的期望年平均收入为:

并且估计标准误,另根据第(3)问求解中的计算结果S=2.03,所以,S. E. =0.687。由公式(3-23)可知,t0.025(9)=2.26,则受过12年教育的个体年平均收入(earn)的95%置信区间为:

(9.28 -2.26 × 0.687,9.28 +2.26 × 0.687)=(7.73,10.83)

(5)由于edu=20已经超出样本中自变量的取值范围 [5,16],因此利用回归拟合直线预测edu=20时个体年平均收入的取值是很危险的。

当预测值的范围超出了样本中 x 的取值范围时,利用回归直线预测要千万小心。这时,不仅因为预测值的置信区间变得过大而不可靠,更重要的是,自变量与因变量之间的关系可能在超出样本取值范围的某个 x处突然转变, (如图3-7所示)。但是,我们无法从已有的样本数据中得知这种趋势是否存在。

图3-7 预测值与真实值之间可能出现的关系

在图3-7的例子中我们可以看到,超出数据范围 edu =16以后,受教育年限与年平均收入之间可能呈曲线关系,而不再是简单的线性关系。如果这时仍然按照原有的拟合直线对 edu =20进行估计,就会使预测结果出现很大的偏误。