心理与教育研究中的多元统计方法
上QQ阅读APP看书,第一时间看更新

3.4 建立有效的多重回归模型

所谓有效的回归模型,是希望在这个回归模型中能包含尽量多的信息和尽量少的自变量。为此必须注意以下三个问题。

(1)选择合适的自变量。

所谓合适,有三个层面的意思。首先要根据研究的理论基础来选择因变量与自变量,有了理论基础则可以继而考查这些自变量是否与因变量有线性相关。如自变量与因变量相关系数过低,用这个自变量来预测因变量的效果就会不理想。其次是自变量的数量要适当,自变量过多,部分自变量可能对因变量实际影响并不显著,反而会因自由度的减少而增大了误差。但是自变量数量太少,则会导致决定系数值过低,影响回归分析效果。三是自变量间的相关不能过高,否则容易出现多重共线性等问题。因此在回归分析中提出最优方程的要求,即要求进入回归方程的自变量都是显著的,未进入回归方程的自变量都不显著。为了获得最优方程,多重回归分析提供了若干选择自变量的方法,如强迫剔除法(remove)、前进法(forward)、后退法(backward)、逐步回归法(stepwise)等,其中应用最多的是逐步回归法。如果自变量超过5个(p≥5),也可考虑用逐步回归法。它的具体做法是:先将所有自变量分别与因变量建立线性回归方程,将偏回归平方和最大的以及通过显著性检验的变量引入方程;然后再把剩余的自变量分别与因变量和已引入方程的自变量建立多重回归方程,经过检验偏回归系数,剔除不显著的自变量。逐步回归法又称统计回归分析,因为该方法是单纯地看统计指标来选择自变量,缺少理论基础及逻辑性的考量。Harrell(2001)曾经评论该方法不是一种好方法,也有人提议当自变量超过5个时,可选用它来进行探索性研究。相对逐步回归而言,前面介绍的全部自变量都参与参数估计的方法称为标准多重回归(standard multiple regression)。

(2)抽样数据的量与质。

在本章的回归分析中,对所有因变量与自变量的数据要求是连续变量或者等距尺度以上的数据(如果在一般线性模型中,自变量可以是二值变量——0或1)。但是不管哪类回归模型,因变量与自变量都必须是高质量的:一是要保证有足够的样本量,二是要尽可能不存在极端值与缺失值,三是自变量的信度要尽可能高些。足够的样本量是获得稳定的偏回归系数估计值的前提条件。但到底需要多少样本量?和其他统计分析一样,无法严格规定。归纳各类教材中对样本量的要求,可以分为三个档次的标准。最低标准是样本数量必须是自变量个数的5倍。例如要用3个自变量,至少需要有15个被试。中等标准是自变量10倍,较高标准是40倍,若使用逐步回归法,该比例要求达50倍。极端值是指数值上较大地偏离了其他数据的观察值,缺失值是指观察值不完全。由于回归模型是线性模型,与方差、相关系数类似,估计结果非常容易受到极端值与缺失值的影响。极端值需要利用残差分析方法来确定,而缺失值可以用平均值等方法进行修补。分析前先对数据进行筛选,剔除有缺陷的数据,是对初学者来说比较稳妥的办法。由于在回归模型里,是不考虑自变量误差的,为了使它们有效地发挥预测作用,其信度应尽可能高些。

(3)回归模型假设的检查。

很多教材关于多重回归模型假设的提法是有差异的。最常见的有四点:正态性(normality)、线性(linearity)、方差齐性(homoscedasticity)与误差的独立性(independence)。严格来说,上述四条还能再归纳到两条:①误差ei(i=1,2,……,n)相互独立且服从平均值为0,方差为σ2的正态分布;②存在预测式,它是至少由一个自变量组成的线性方程式。对于初学者来说,可用观察残差分布的信息来判断这些假设是否满足。这种方法虽然粗糙,但是基本有效,具体做法在前面的残差分析中已经提及。当然还有其他方法如P-P图、正态直方图以及代数学中的证明等。