SAS统计分析教程
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4.12 常见多因素实验设计一元定量资料协方差分析

4.12.1 问题与数据

【例4-15】某研究者欲研究3种饲料对动物体重增长的影响,按照某些重要非实验因素将36只大白鼠均分成12个随机区组,再将每个随机区组中的3只大白鼠随机地分入3个饲料组,各组进食量与所增体重的测定结果如表4-18所示,试分析3种饲料对大鼠增重效果间的差别是否有统计学意义。

表4-18 3组白鼠的进食量X(g)与所增体重Y(g)的测定结果

【例4-16】某研究者将60只雄鼠随机地分成6组,分别饲以不同种类食物及成分的蛋白质,并记录食物消耗量X(g)、增重体重Y(g),实验结果如表4-19所示。试分析不同种类食物及蛋白质成分对雄鼠的增重效果之间的差异有无统计学意义。

表4-19 6组雄鼠的食物消耗量X和所增体重Y的实验结果

【例4-17】某研究者欲研究两种麻醉药物的效果,将20例病人随机地均分为两组,一组用硫贲妥钠,另一组用异丙酚。分别记录20例病人用药前、气管插管后1 min、3 min、5 min、7 min、9 min的收缩压变化,实验结果如表4-20所示。试分析采用这两种药物麻醉的两组患者收缩压均值的差异有无统计学意义。

表4-20 两组患者收缩压的观察结果

4.12.2 对数据结构的分析

在例4-15资料中,研究者先根据某些重要非实验因素将大白鼠分成12个随机区组,然后再随机决定每个组中的3只大白鼠分别食用三种饲料之一。实验因素为“饲料种类”,区组因素为“某些重要非实验因素组合”,观测指标为“体重增加量”,因而资料类型应为随机区组设计一元定量资料。但在分析时,需注意“进食量”的影响,此变量为协变量。

在例4-16资料中,涉及两个实验因素、食物种类及蛋白质成分。前者有3个水平:牛肉、谷类及猪肉;后者有两个水平:高蛋白和低蛋白。因为所有实验条件为这两个因素各水平的全面组合且因素间无主次之分,所以资料应为两因素析因设计定量资料。但是,由于食物消耗量这个定量影响因素的存在,它是一个极为重要的非实验因素,应以其为协变量。

在例4-17资料中,对每一个病人来说,在气管插管后5个时间点上分别测量其收缩压,说明“时间”因素是一个重复测量的因素。此外,还有一个实验因素“药物种类”(硫贲妥钠或异丙酚),因而这是具有一个重复测量的两因素设计定量资料,应选用具有一个重复测量的两因素设计定量资料方差分析来处理。同时,由于研究者记录了所有病人麻醉前的收缩压值,所以最好以此为“基础值”或协变量的取值。

4.12.3 分析目的与统计分析方法的选择

对于例4-15资料,资料类型为随机区组设计一元定量资料。但是,由于在分析时还要考虑定量影响因素“进食量”的影响,需选用随机区组设计定量资料一元协方差分析。

对于例4-16资料,资料类型为两因素析因设计一元定量资料。但是,由于食物消耗量这个定量影响因素的存在,分析时应以食物消耗量为协变量,采用两因素析因设计一元定量资料的协方差分析处理此资料。

对于例4-17资料,资料类型为具有一个重复测量的两因素设计一元定量资料。由于研究者记录了所有病人麻醉前的收缩压值,所以最好以此为“基础值”,采用具有一个重复测量的两因素设计一元定量资料的协方差分析来处理数据。

4.12.4 SAS程序

对例4-15资料进行随机区组设计定量资料一元协方差分析,SAS程序名为SASTJFX4_15.SAS。

SAS程序中第1步为建立数据集,group代表“随机区组”,forage代表“饲料种类”,appetite代表“进食量”,increment代表“体重增加量”。第2步为调用GLM过程分析协变量与实验因素之间的交互作用是否有统计学意义,目的是了解各组的总体回归斜率是否相等。第3步为调用GLM过程进行随机区组设计定量资料的协方差分析。model语句“/”后的solution选项用来给出模型中固定效应的解,lsmeans语句可给出响应变量increment的修正均数,并给出因素各水平两两比较的结果。lsmeans语句“/”后的stderr用来输出因素各水平组修正后响应变量的标准误差及修正均数与0比较的检验结果,tdiff和pdiff用来输出因素各水平组修正均数两两比较的t值和P值。

对例4-16资料进行两因素析因设计一元定量资料的协方差分析,SAS程序名为SASTJFX4_16.SAS。

SAS程序中第1步为建立数据集,protein代表“蛋白质成分”,food代表“食物种类”,appetite代表“食物消耗量”,increment代表“增重体重”。第2步为调用GLM过程分析协变量与两个实验因素之间的交互作用是否有统计学意义,目的是了解各组的总体回归斜率是否相等。第3步为调用GLM过程进行析因设计定量资料的一元协方差分析。

对例4-17资料进行具有一个重复测量的两因素设计一元定量资料的协方差分析,SAS程序名为SASTJFX4_17.SAS。

SAS程序中第1步为建立数据集,drug代表“药物种类”,patient代表“患者编号”,time0代表患者用药前收缩压值,time代表气管插管后时间,y代表收缩压值。第2步为调用GLM过程分析协变量与两个实验因素之间的交互作用是否有统计学意义,目的是了解各组的总体回归斜率是否相等。第3、4、5、6步调用MIXED过程,分别采用VC、CS、AR(1)、SP(POW) 4种协方差结构模型对资料进行方差分析(此数据不宜采用UN协方差结构模型进行方差分析,因其迭代无法收敛,读者可自行验证)。第7步为建立宏shuju,以实现对数据集中已有变量value的更名,具体语法读者可参考与本书配套的光盘上附录1中第51章有关内容。第8、9步均用来实现对不同数据集的横向合并。第10、11步均用来将数据集中的内容输出到output窗口中。

4.12.5 主要分析结果及解释

以下是对例4-15的分析结果,即程序SASTJFX4_15.SAS的输出结果。

这是输出结果的第1部分,用来考察资料是否满足协方差分析的第2个前提条件—各组总体回归斜率相等。查看上述结果可发现:appetite*forage对应的假设检验结果为F=0.34,P=0.7202;appetite*group对应的假设检验结果为F=2.25,P=0.1301。即appetite*forage和appetite*group均无统计学意义,可认为各回归直线之间的斜率相等,所以满足协方差分析的第2个前提条件。此方差分析表中其他各项主效应的假设检验结果读者可不予参考。

这是输出结果的第2部分,是对3个因素进行假设检验的结果。由各自对应的F值和相应的P值大小可判断,进食量appetite(F=58.26,P<0.0001)、各随机区组之间(F=3.23,P=0.0101)对响应变量increment的影响有统计学意义,3个饲料组(F=2.19,P=0.1369)观测指标increment均数之间的差别无统计学意义。

这是输出结果的第3部分,是模型中固定效应的解。对区组因素group和实验因素饲料种类forage来说,均是其各自水平与参照水平(各因素最后一个水平,本资料为group12和forage3)进行均数比较的假设检验结果。例如forage1所在行对应的P值为0.5113,表示第1种饲料与第3种饲料之间的差别无统计学意义。在model语句中不存在交互项时,这个结果与随后lsmeans语句给出的结果相同,可视为后者的一部分。因此,如果SAS程序中已有lsmeans语句,则可省去model语句“/”后的solution项。

Least Squares Means

这是输出结果的第4部分,首先给出了3个饲料组响应变量increment的修正均数及其与0比较的假设检验的结果,无太大实际意义。然后,给出3个饲料组响应变量increment的修正均数两两比较的结果,3种饲料之间的差别均无统计学意义。

以下是对例4-16的分析结果,即程序SASTJFX4_16.SAS的输出结果。

这是输出结果的第1部分,用来考察资料是否满足协方差分析的第2个前提条件—各组总体回归斜率相等。查看上述结果可发现,appetite*protein对应的假设检验结果为F=0.66、P=0.4190,appetite*food对应的假设检验结果为F=0.03、P=0.9684,即appetite*forage和appetite*food无统计学意义。因为可认为蛋白质成分及食物种类这两个定性变量内部的回归斜率近似相等,所以满足协方差分析的第2个前提条件。在此方差分析表中,对其他各项的假设检验结果,读者可不予参考。

这是输出结果的第2部分,是对协变量、两个实验因素及其交互作用进行假设检验的结果。由各自对应的F值和相应的P值大小可判断,appetite、protein及food对响应变量increment的影响均有统计学意义,但protein*food无统计学意义。

Least Squares Means

这是输出结果的第3部分,包括protein、food两因素各水平下响应变量increment的修正均数、与0比较以及修正均数之间两两比较的假设检验结果。除food因素1水平和2水平(即牛肉与谷类)条件下响应变量increment的修正均数之间的差别无统计学意义外,其他各水平条件下响应变量increment的修正均数之间的差别均有统计学意义。

这是输出结果的第4部分,首先给出了各实验条件下响应变量increment的修正均数及它们与0之间的差异是否有统计学意义的假设检验结果,并对每种实验条件进行编号(查看LSMEAN Number列);然后给出了6种实验条件下响应变量increment的修正均数两两比较的结果。编号为1~3的实验条件之间的比较是高蛋白条件下3种食物营养价值的比较:1(牛肉)与2(谷类)之间的差别无统计学意义(P=0.9043),1与3、2与3之间的差别均有统计学意义。编号为4~6的实验条件之间的比较是低蛋白条件下3种食物营养价值的比较:4(牛肉)与6(猪肉)之间的差别无统计学意义(P=0.1465),4与5、5与6之间的差别均有统计学意义。说明高蛋白时,牛肉与谷类的营养价值接近且最高;低蛋白时,谷类的营养价值最高,牛肉与猪肉营养价值接近且最低。

以下是对例4-17的分析结果,即程序SASTJFX4_17.SAS的输出结果。

这是输出结果的第1部分,用来考察资料是否满足协方差分析的第2个前提条件—各组总体回归斜率相等。查看上述结果可发现,time0*drug对应的假设检验结果为F=0.02,P=0.8939,time0*time对应的假设检验结果为F=1.30,P=0.2692。time0*drug和time0*time无统计学意义,因为可认为药物种类及时间这两个定性变量内部的回归斜率近似相等,所以满足协方差分析的第2个前提条件。在此方差分析表中,对其他各项的假设检验结果,读者可不必关注。

这是上述程序中ODS(Output Delivery System)输出的结果。首先给出了4种协方差结构模型拟合本资料的有关情况,然后给出了协方差结构的有关信息(Covariance Parameters表示模型中待估计的协方差结构中参数的个数)。比较4种模型拟合资料情况的AIC、BIC数值,可发现AR(1)和SP(POW)两种协方差结构模型拟合资料情况相同且较好。由于CS、AR(1)、SP(POW)三种协方差结构模型参数个数均为2,但后两者拟合效果好于CS协方差结构模型,所以可不考虑CS协方差结构模型。现比较AR(1)和SP(POW)两种协方差结构模型拟合资料的效果与VC协方差结构模型拟合资料的效果之间的差异是否有统计学意义。

χv2=−2 logLq−(−2 logLq+v)=611.4−565.8=45.6

因为由ODS输出结果的第2部分可知,q=1,q+v=2,所以v=1。因χ0.05(1)2=3.84<45.6,故P<0.05。因为可认为不适合用VC模型取代AR(1)或SP(POW)模型,所以最后的结论应按AR(1)或SP(POW)协方差结构模型计算出来的结果来下。其假设检验结果为:

由上述结果可知:时间(time)因素各水平之间观测指标的差异有统计学意义,而药物种类(drug)、药物种类与时间的交互作用(drug*time)均无统计学意义。因此,两种药物麻醉后患者的收缩压状况没有差异。