第2章 校正混杂因素:协方差分析
2.1 协方差分析简介
在研究实际问题的过程中,除必须关注的因变量和自变量外,经常出现一些人为难以控制的随机因素,它们会对因变量产生一些较为显著的影响。如果忽略这些因素的影响,则将有可能无法得到准确的结果。
例如,研究中学生每天早读时间是否会对其英语成绩有显著影响。这里将学生每天早读的时间作为自变量,将学生的英语成绩作为因变量,但是学生最初的英语水平也会对最后测试的成绩有影响。因此,在分析时必须排除这一因素。又比如,某一地区对本地居民的学龄儿童发放教育代釐券直到其就业,对非本地居民的学龄儿童则不发放教育代釐券,若干年后比较他们的劳动收入,即比较发放教育代釐券是否会对他们的劳动收入产生影响。然而家庭的教育投资力度也会对学龄儿童以后的劳动收入产生影响,因此,在研究过程中需要控制这一因素。对于此类问题,我们需要用协方差分析来解决。
协方差分析是建立在回归分析和方差分析基础之上的一种分析方法。当检验两组或多组修正的主效应之间有无差异时,协方差分析可以消除混杂因素(协变量)对因变量的影响。其中,协变量指会对因变量产生影响,但是不被研究者关心的非自变量的变量。
利用协方差分析,可以更加准确地控制混杂因素在不同水平时对结果造成的影响,排除在实验设计阶段人为无法掌控的因素对结果造成的影响。在统计分析阶段,将这些人为难以控制的随机变量作为协变量,在剔除协变量的影响后,再对修正的主效应进行方差分析,从而达到准确地分析自变量对因变量的影响。
以研究中学生每天早读时间是否会对其英语成绩有显著影响为例,将学生分为两组,分别每天早读英语 60min 和 30min,一个月后采用相同的试卷测试两组学生的英语成绩,记为后测成绩。协方差分析的原理是,利用学生的初始成绩与后测成绩进行回归分析,将后测成绩校正为与初始成绩相同的成绩,在消除初始成绩对后测成绩的影响后,运用方差分析比较校正后的后测成绩的差别。利用这种方法可以提高实验的准确性,从而更真实地反映实际情况。
协方差分析需要满足以下要求。
(1)协变量为连续数值,各协变量之间相互独立,协变量与自变量之间是相互独立的,没有交互效应。
(2)协变量与因变量存在线性关系,回归斜率一致,即各组的回归拟合线是平行的,且回归系数不为 0,即βw1=βw2=...=βwk,且βw≠0。该要求会影响协方差分析结果的可靠性,因此,在进行协方差分析时,首先要对回归斜率的一致性进行验证。
(3)各组残差正态分布。
协方差分析的模型:
观测值=一般均值+水平影响+协变量影响+随机误差
其中,方差分析:
回归分析:
其中,X为协变量,Xij为协变量在分类水平 i 和 j 上的记彔值,μx是所有协变量的平均值,βe为回归系数。
由式(2.1)可以看出,对于协方差分析:
总离差=分组变量离差+协变量离差+随机误差