第4章 均值过程和T检验案例研究
均值是描述数据特征的一个非常重要的指标。在做数据分析的时候,我们经常根据数据分组分别输出数据的均值等描述性统计量,也经常需要对数据进行均值比较,包括样本均值与总体均值比较、独立的样本之间进行均值比较、成对样本之间进行均值比较等。其中根据数据分组分别输出数据的重要描述性统计量可以通过均值过程来完成,对数据进行均值比较可以通过相应的T检验过程来完成。下面我们将分别介绍均值过程和各种T检验过程在实例中的应用。
4.1 实例8——均值过程分析
4.1.1 均值过程分析的功能与意义
SPSS的均值过程分析(Means)用于计算数据的各种基本描述统计量。通过均值过程分析,我们可以得到数据的平均值、最大值、最小值、方差、标准差、极差、偏度系数和峰度系数等重要的描述统计量,这与第2章介绍的描述性分析(Descriptives)是类似的。但是均值过程分析(Means)能够对数据分组计算描述性统计量,并可以直接输出不同组的比较结果,从而能够对不同的组进行比较分析,所以均值分析过程属于均值比较(Compare Means)这一体系。
4.1.2 相关数据来源
【例4.1】表4.1给出了山东省某学校某班学生的高考数学成绩。试用均值过程比较该班不同性别的学生之间成绩的差异。
表4.1 山东省某学校某班学生的高考数学成绩表
4.1.3 SPSS分析过程
在用SPSS进行分析之前,我们要把数据录入到SPSS中。容易发现本例中有3个变量,分别是编号、性别和高考数学成绩。我们把编号和性别定义为字符型变量,把高考数学成绩定义为数值型变量,并对性别变量进行值标签操作,用“1”表示“男”,用“2”表示“女”,然后录入相关数据。录入完成后,数据如图4.1所示。
图4.1 案例4.1数据
先做一下数据保存,然后开始展开分析,步骤如下:
进入SPSS 24.0,打开相关数据文件,选择“分析”|“比较平均值”|“平均值”命令,弹出如图4.2所示的对话框。
图4.2 “平均值”对话框
选择进行描述性统计分析的变量。在“平均值”对话框的左侧列表框中,选择“高考数学成绩”并单击按钮使之进入“因变量列表”列表框,选择“性别”并单击按钮使之进入“自变量列表”列表框。
选择输出相关描述统计量。单击“平均值”对话框右上角的“选项”按钮,弹出如图4.3所示的对话框,在该对话框中可以选择输出的相关描述统计量。我们在“统计”列表框中依次选择“平均值”“个案数”“标准差”并单击按钮,使之进入“单元格统计”列表框,单击“继续”按钮返回“平均值”对话框。
设置完毕后,单击“确定”按钮,等待输出结果。
图4.3 “平均值:选项”对话框
4.1.4 结果分析
(1)记录统计表
从表4.2中可以看出,样本共有32个,全部参加分析,没有缺失值记录。
表4.2 记录统计表
(2)变量分组统计结果表
从表4.3可以看出,该班共有男生16人,其高考数学成绩的平均值是126.88,标准差是11.454;共有女生16人,其高考数学成绩的平均值是119.88,标准差是9.018。本结果说明该班不同性别的学生的高考数学成绩有很大的差异,男生的成绩要明显优于女生。
表4.3 变量分组统计结果表
4.2 实例9——单一样本T检验过程分析
4.2.1 单一样本T检验的功能与意义
SPSS的单一样本T检验过程(One-Samples T Test)是假设检验中常用的方法之一。与所有的假设检验一样,其依据的基本原理也是统计学中的“小概率反证法”原理。通过单一样本T检验,我们可以实现样本均值和总体均值的比较。单一样本T检验过程也属于均值比较这一体系。
4.2.2 相关数据来源
【例4.2】山东省某高校5年前对大一学生体检时,发现男生的平均体重是65.6kg。最近又抽查测量了该校50名大一学生的体重,如表4.4所示。试用单一样本T检验方法判断该校大一学生的体重与5年前相比是否有显著差异。
表4.4 山东省某高校50名大一学生的体重表
4.2.3 SPSS分析过程
本例中有两个变量,分别是编号和体重。我们把编号定义为字符型变量,把体重定义为数值型变量,然后录入相关数据。录入完成后,数据如图4.4所示。
先进行数据保存,然后展开分析,步骤如下:
进入SPSS 24.0,打开相关数据文件,选择“分析”|“比较平均值”|“单样本T检验”命令,弹出如图4.5所示的对话框。
选择进行单一样本T检验的变量。在“单样本T检验”对话框的左侧列表框中,选择“体重”并单击按钮使之进入“检验变量”列表框。
设定目标值。在“检验值”文本框中输入5年前男生的平均体重“65.6”。
设置置信区间和缺失值的处理方法。单击“单样本T检验”对话框中的“选项”按钮,弹出如图4.6所示的对话框。我们在“置信区间百分比”文本框中输入“95”,即设置显著性水平为5%。在“缺失值”选项组中选中“按具体分析排除个案”单选按钮,也就是说,只有分析计算涉及该记录缺失的变量时,才删去此记录。设置完毕后,单击“继续”按钮返回“单样本T检验”对话框。
图4.5 “单样本T检验”对话框
图4.6 “单样本T检验:选项”对话框
设置完毕后,单击“确定”按钮,等待输出结果。
4.2.4 结果分析
(1)数据基本统计量表
从表4.5中可以读出以下信息:参与分析的样本共有50个,样本平均值是67.328,标准差是7.3555,标准误差平均值是1.0402。
(2)单样本T检验结果表
从表4.6中可以发现:t统计量的值是1.661,自由度是49,95%的置信区间是(-0.362,3.818),临界置信水平为0.103,大于5%,说明该校大一学生的体重与5年前相比无显著差别。
表4.5 数据基本统计量表
表4.6 单样本T检验结果表
4.3 实例10——独立样本T检验过程分析
4.3.1 独立样本T检验的功能与意义
SPSS的独立样本T检验过程(Independent-Samples T Test)也是假设检验中常用的方法之一。与所有的假设检验一样,其依据的基本原理也是统计学中的“小概率反证法”原理。通过独立样本T检验,我们可以实现两个独立样本的均值比较。独立样本T检验过程也属于均值比较这一体系。
4.3.2 相关数据来源
【例4.3】表4.7给出了甲、乙两所学校各40名高三学生的高考数学成绩。试用独立样本T检验方法研究两所学校被调查的高三学生的高考数学成绩之间有无明显的差别。
表4.7 甲、乙两所学校各40名高三学生的高考数学成绩
4.3.3 SPSS分析过程
在用SPSS进行分析之前,我们要把数据录入到SPSS中。容易发现本例中有3个变量,分别是编号、学校和高考数学成绩。我们把编号和学校定义为字符型变量,把高考数学成绩定义为数值型变量,并对变量学校进行值标签操作,用“1”表示“甲学校”,用“2”表示“乙学校”,然后录入相关数据。录入完成后,数据如图4.7所示。
图4.7 案例4.3数据
先做一下数据保存,然后展开分析,步骤如下:
进入SPSS 24.0,打开相关数据文件,选择“分析”|“比较平均值”|“独立样本T检验”命令,弹出如图4.8所示的对话框。
图4.8 “独立样本T检验”对话框
选择进行独立样本T检验的变量。在“独立样本T检验”对话框的左侧列表框中,选择“高考数学成绩”并单击按钮使之进入“检验变量”列表框。
选择分组变量。在“独立样本T检验”对话框的左侧列表框中,选择“学校”并单击按钮使之进入“分组变量”列表框。然后单击“定义组”按钮,弹出如图4.9所示的对话框。其中“组1”“组2”分别表示第一、二组类别变量的取值。我们在“组1”中输入1,在“组2”中输入2。
置信区间和缺失值的处理方法。单击“独立样本T检验”对话框中的“选项”按钮,弹出如图4.10所示的对话框。同样,在“置信区间百分比”文本框中输入“95”,即设置显著性水平为5%。在“缺失值”选项组中选中“按具体分析排除个案”单选按钮,单击“继续”按钮,返回“独立样本T检验”对话框。
图4.9 “定义组”对话框
图4.10 “独立样本T检验:选项”对话框
设置完毕后,单击“确定”按钮,等待输出结果。
4.3.4 结果分析
(1)数据基本统计量表
从表4.8中可以读出以下信息:参与分析的样本中,甲组的样本容量是40,样本平均值是119.95,标准差是12.249,标准误差平均值是1.937;乙组的样本平均值是132.65,标准差是11.263,标准误差平均值是1.781。
表4.8 数据基本统计量表
(2)独立样本T检验结果表
从表4.9中可以发现:F统计量的值是0.652,对应的置信水平是0.422,说明两样本方差之间不存在显著差别,采用的方法是两样本等方差T检验。T统计量的值是-4.827,自由度是78,95%的置信区间是(-17.938,-7.462),临界置信水平为0.000,远小于5%,说明两所学校被调查的高三学生的高考数学成绩之间有着明显的差别。
表4.9 独立样本T检验结果表
4.4 实例11——成对样本T检验过程分析
4.4.1 成对样本T检验的功能与意义
SPSS的成对样本T检验过程(Paired-Samples T Test)也是假设检验中的方法之一。与所有的假设检验一样,其依据的基本原理也是统计学中的“小概率反证法”原理。通过成对样本T检验,我们可以实现对成对数据的样本均值比较。其与独立样本T检验的区别是两个样本数据的顺序不能调换。
4.4.2 相关数据来源
【例4.4】为了研究一种减肥药品的效果,特抽取了20名试验者进行试验,其服用该产品一个疗程前后的体重变化如表4.10所示。试用成对样本T检验的方法判断该药物能否引起试验者体重的明显变化。
表4.10 试验者服药前后的体重(单位:kg)
4.4.3 SPSS分析过程
本例中有3个变量,分别是编号、服药前体重和服药后体重。我们把编号定义为字符型变量,把服药前体重和服药后体重定义为数值型变量,然后录入相关数据。录入完成后,数据如图4.11所示。
先做一下数据保存,然后展开分析,步骤如下:
进入SPSS 24.0,打开相关数据文件,选择“分析”|“比较平均值”|“成对样本T检验”命令,弹出如图4.12所示的对话框。
图4.11 案例4.4数据
选择进行成对样本T检验的变量。在“成对样本T检验”对话框的左侧列表框中,同时选中“服药前体重”和“服药后体重”并单击按钮使之进入“配对变量”列表框。
设置置信区间和缺失值的处理方法。单击“成对样本T检验”对话框中的“选项”按钮,弹出如图4.13所示的对话框。
图4.12 “成对样本T检验”对话框
图4.13 “成对样本T检验:选项”对话框
在“置信区间百分比”文本框中输入“95”,即设置显著性水平为5%。选中“按具体分析排除个案”单选按钮,单击“继续”按钮返回“成对样本T检验”对话框。
设置完毕后,单击“确定”按钮,等待输出结果。
4.4.4 结果分析
(1)数据基本统计量表
从表4.11中可以读出以下信息:样本共20个,服药前体重测量的样本平均值是74.540,标准差是9.2440,标准误差平均值是2.0670;服药后体重测量的样本平均值是74.000,略有下降,标准差是6.9309,标准误差平均值是1.5498。
表4.11 数据基本统计量表
(2)成对样本相关系数表
从表4.12中可以看出,服药前后体重的相关系数很高。
表4.12 数据基本统计量表
(3)成对样本T检验结果表
从表4.13中可以发现:t统计量的值是0.767,95%的置信区间是(-0.9337,2.0137),临界置信水平为0.453,远大于5%,说明该药物并没有引起试验者体重的明显变化。
表4.13 成对样本T检验结果表
4.5 本章习题
1. 试对第4.3节例题中甲、乙两所学校被抽取的高三学生的高考数学成绩做均值过程分析,研究两所学校的学生之间成绩的差异。
2. 试对第2.1节例题中山东省某学校50名高二学生的身高数据做单一样本T检验,检验其是否与该校全体学生的平均身高170cm有明显的差别。
3. 试对第4.1节例题中山东省某学校某班学生的高考数学成绩做独立样本T检验,研究该班不同性别的学生之间成绩有无明显的差别。
4. 在第2章中,表2.17给出了广东省东部和西部主要年份的年降雨量(单位:毫米)。试用成对样本T检验的方法分别判断广东省东部和西部主要年份的年降雨量在1980~1997和1998~2003这两个时间段是否发生了显著的变化。