第三节 假设检验的基本原理
前面讲了样本均数抽样分布的问题。抽样研究的目的是用样本信息来推断总体特征。但是由于样本均数包含抽样误差,用包含抽样误差的样本均数来推断总体均数,其结论并不是绝对正确的。因而要对样本均数进行统计假设检验。
假设检验又叫显著性检验(test of significance),是统计学中一个很重要的内容。假设检验的方法很多,常用的有t检验、F检验和χ2检验等。尽管这些检验方法的用途及使用条件不同,但其检验的基本原理是相同的。本节以两个平均数的差异检验来阐明假设检验的基本原理。
一、假设检验的基本思想
两个总体间的差异如何比较?一种方法是研究整个总体,即由总体中的所有个体数据计算出总体参数进行比较。这种研究整个总体的方法是很准确的,但常常是不可能进行的,因为总体往往是无限总体,或者是包含个体很多的有限总体。因此,不得不采用另一种方法,即研究样本,通过样本研究其所代表的总体。
由两样本均数和的差异来推断总体平均数μ1、μ2相同与否,不能仅依据样本均数表面上的差异直接得出结论,其根本原因在于抽样误差(实验误差)的不可避免性。对于接受不同处理的两个样本来说,有,。这说明两个样本均数之差也包括了两部分:一部分是两个总体均数的差(μ1 − μ2),叫做实验的处理效应(treatment effect);另一部分是抽样误差(实验误差)。因此,仅凭就对总体均数 μ1、μ2是否相同下结论是不可靠的。只有通过假设检验才能从中提取结论。对(进行假设检验就是要分析:实验的表面效应主要是由处理效应(μ1 − μ2)引起的,还是主要由抽样误差(实验误差)所造成。虽然处理效应(μ1 − μ2)未知,但实验的表面效应是可以计算的,借助统计方法可以对实验误差作出估计。所以,可从实验的表面效应与抽样误差(实验误差)的权衡比较中,间接地推断处理效应是否存在,这就是假设检验的基本思想。
假设检验应用的是小概率反证法思想。所谓小概率思想是指小概率事件(如P < 0.05)在一次实验中基本上不会发生。反证法思想是先提出检验假设(无效假设H0),再用适当的统计方法给出判断假设不成立时所冒的风险大小,如果此风险足够小(P < 0.05),则认为假设不成立,若此风险大(P > 0.05),则还不能认为假设不成立。
二、假设检验基本步骤
(一)对实验样本所在的总体作假设
假设两总体均数相等,即假设 μ1 = μ2或 μ1 − μ2 = 0,其意义是实验的表面效应是由于抽样误差引起,处理无效,这种假设称为原假设(又称无效假设)(null hypothesis),记作H0(样本与总体或样本与样本间的差异是由抽样误差引起)。原假设是被检验的假设,通过检验我们需要做决定,是拒绝原假设,还是不拒绝原假设。提出 H0:μ1 = μ2或 μ1 − μ2 = 0 的同时,相应地还要提出对应假设,称为备择假设(alternative hypothesis),记作H1(样本与总体或样本与样本间存在本质差异)。备择假设是异于原假设,且在原假设被拒绝时可能采用的统计假设。
原假设和备择假设必须由题意来决定。在一般情况下总是把检验的目的作为备择假设,这样可以有充分的把握拒绝原假设。
(二)选择显著水平,确定样本的统计量和分布
在假设检验中,显著水平α表示出现当原假设为真而我们却拒绝原假设,接受备择假设的错误概率不超过α。
假设检验时选用的显著水平,除α = 0.05外,也可选α = 0.10或α = 0.01等。到底选哪种显著水平,应根据实验的要求或实验结论的重要性而定。如果实验中难以控制的因素较多,实验误差可能较大,则显著水平可选低些,即α值取大些。反之,如实验耗费较大,对精确度的要求较高,不容许反复,或者实验结论的应用事关重大,则所选显著水平应高些,即α值应该小些。显著水平α对假设检验的结论是有直接影响的,所以它应在实验开始前即确定下来。一般预先设定的检验水准为0.05。
在原假设H0:μ1 = μ2成立的前提下,选择合适的统计量,研究实验所得统计量(的抽样分布,计算P值。
(三)根据“小概率事件实际不可能性原理”下推断结论
若随机事件的概率很小,例如小于0.05,称之为小概率事件。在统计学上,把小概率事件看成是在一次实验中实际上不可能发生的事件,称为小概率事件实际不可能原理。根据这一原理,当拒绝H0所冒的风险P值小于0.05时,可以认为在一次实验中拒绝H0时犯错误是不可能的,因而否定原先所作的无效假设 H0:μ1 = μ2,接受备择假设 H1:μ1 ≠ μ2,即认为实验的处理效应是存在的。当P值大于0.05时,则说明拒绝无效假设H0:μ1 = μ2所冒的风险大,因而也就不能接受备择假设 H1:μ1 ≠ μ2。
例5-7
某药厂长期生产某种丸药,规定标准为每丸重9g。本月开始使用一台新购置的联合制丸机。根据经验知道其方差为0.25,现抽取100丸药,称得丸重均数为9.1,标准差为0.158,问制丸机工作是否正常?
解:由已知μ0 = 9,,σ = 0.25,n = 100,S = 0.158,确定α = 0.05
(1)建立假设,确定检验标准
H0:μ = μ0 = 9(原假设)
H1:μ ≠ μ0 = 9(备择假设)
(2)计算统计量
(3)做出结论:
所以拒绝假设H0,接受备择假设H1,即制丸机工作不正常。
1.CHISS软件的假设检验
本例题可以用2种方法解。
(1)使用原始数据
1) 进入数据模块:点击“数据”→“文件”→打开“数据库表”,找到文件名为“b5-7.dbf”的数据库→“确认”。
2) 进入统计模块进行统计计算:点击“统计”→“统计推断”→“t检验”→“用原始数据t检验”,反应变量:丸重→“确认”。单组比较时的总体均数(9.0)→OK(确认)。
3) 进入结果模块查看结果:点击“结果”,见表5-9。
表5-9 t检验
(2)使用数据的均数和标准差
1) 进入数据模块:点击“数据”→“文件”→打开“数据库表”,找到文件名为“b5-8.dbf”的数据库→“确认”。
2) 进入统计模块进行统计计算:点击“统计”→“统计推断”→“t检验”→“用均数t检验”,反应变量:总体均数、样本均数→“确认”
3) 进入结果模块查看结果:点击“结果”,结果见表5-10。
表5-10 成组t检验
注:数据来自:b5-8.DBF
综上,假设检验,从提出无效假设与备择假设,到根据“小概率事件实际不可能性原理”来否定或接受无效假设,这一过程实际上是应用所谓“概率性质的反证法”对实验样本所属总体所作的无效假设的统计推断。
2.SAS软件的假设检验
结果如图5-28:
图5-28 SAS软件中t检验结果
3.Stata软件的假设检验
*导入样例b5-7的csv文件
import delimited E:\example\b5-7.csv,encoding(GBK)clear
*单样本t检验统计推断,结果如图5-29
ttest 丸重 = 9.0
图5-29 Stata软件中t检验结果
4.SPSS软件的假设检验
此数据库已建立在文件夹中,文件名为:b5-7sav。
首先,打开文件,单击“文件”→“打开”→“数据”,找到文件名“b5-7sav”,点击“打开”。
第二,点击“分析”→“比较平均值”→“单样本T检验”,如图5-30所示,弹出“单样本T检验”对话框,如图5-31所示,检验变量中填入“丸重”,检验值为“9”,点击“选项”,弹出“单样本T检验:选项”对话框如图5-32所示,置信区间百分比为“95%”,点击“继续”,点击“确定”。
图5-30 数据编辑器窗口
图5-31 单样本T检验对话框
图5-32 单样本T检验:选项对话框
结果显示如图5-33所示。
图5-33 SPSS软件中t检验结果
三、假设检验的两种类型错误
由于显著性检验是根据“小概率事件实际不可能性原理”来决定是否拒绝无效假设的,所以不论是拒绝还是不拒绝无效假设,都没有100%的把握。也就是说,在检验无效假设H0时可能犯两类错误。
第一类错误(或Ⅰ型错误):是原假设H0为真而被拒绝,又称弃真。Ⅰ型错误,就是把非真实差异错判为真实差异,即 H0:μ1 = μ2为真,却接受了 H1:μ1 ≠ μ2。犯Ⅰ型错误的概率不会超过α。
第二类错误(或Ⅱ型错误):是原假设H0不真但被”接受”,又称存伪。Ⅱ型错误,就是把真实差异错判为非真实差异,即 H1:μ1 ≠ μ2为真,却未能否定 H0:μ1 = μ2。
Ⅱ型错误发生的原因可以用图5-34来说明。图中左边曲线是H0:μ1 = μ2为真时,的分布密度曲线;右边曲线是 H1:μ1 ≠ μ2 为真时,的分布密度曲线(μ1 > μ2),它们构成的抽样分布相叠加。有时我们从 μ1 − μ2 ≠ 0 总体抽取一个恰恰在H0成立时的接受域内(如图中横线阴影部分),这样,实际是从μ1 − μ2 ≠ 0总体抽的样本,经显著性检验却不能否定H0,因而犯了Ⅱ型错误。犯Ⅱ型错误的概率用β表示。错误概率β值的大小较难确切估计,它只有与特定的H1结合起来才有意义。一般与显著水平α、原总体的标准差σ、样本含量n、以及相互比较的两样本所属总体平均数之差μ1 − μ2等因素有关。在其他因素确定时,α值越小,β值越大;反之,α值越大,β值越小;样本含量n及μ1 − μ2越大,σ越小,β值越小。
图5-34 两类错误示意图
由于β值的大小与α值的大小有关,所以在选用检验的显著水平时应考虑到犯Ⅰ、Ⅱ型错误所产生后果严重性的大小,还应考虑到实验的难易及实验结果的重要程度。若一个实验耗费大,可靠性要求高,不允许反复,那么α值应取小些;当一个实验结论的使用事关重大,容易产生严重后果,如药物的毒性实验,α值亦应取小些。对于一些条件不易控制、误差较大的实验,可将α值放宽到0.1,甚至放宽到0.25。
在控制第一类错误α较小时,为了减小犯Ⅱ型错误的概率,可适当增大样本含量。因为增大样本含量可使分布的方差σ2(1/n1 + 1/n2)变小,使图5-3左右两曲线变得比较“高”“瘦”,叠加部分减少,即β值变小。我们的愿望是α值不越过某个给定值,比如α = 0.05或0.01的前提下,β值越小越好。因为在具体问题中μ1 − μ2和σ相对不变,所以β值的大小主要取决于样本含量的大小。
图5-34中的1 − β称为检验功效或检验力(power of test),也叫把握度。其意义是当两总体确有差别(即H1成立)时,按α水平能发现它们有差别的能力。例如1 − β = 0.9,意味着若两总体确有差别,则理论上平均100次抽样比较中有90次能得出有差别的结论。
两类错误的关系可归纳如下(表5-11):
表5-11 两类错误的关系
四、假设检验应注意的问题
1.为了保证实验结果的可靠及正确,要有严密合理的实验或抽样设计,保证各样本是从相应同质总体中随机抽取的。且处理间要有可比性,即除比较的处理外,其他影响因素应尽可能控制相同或基本相近。否则,任何假设检验的方法都不能保证结果的正确。
2.选用的假设检验方法应符合其应用条件。由于研究变量的类型、问题的性质、条件、实验设计方法、样本大小等的不同,所用的假设检验方法也不同,因而在选用检验方法时,应认真考虑其适用条件,不能滥用。
3.合理建立统计假设,正确计算检验统计量。
4.结论不能绝对化。经过假设检验最终是否否定无效假设,是由被研究事物有无本质差异、实验误差的大小及选用显著水平的高低决定的。同样一种实验,实验本身差异程度不同,样本含量大小不同,显著水平高低不同,统计推断结论可能不同。否定H0时可能犯Ⅰ型错误,“接受”H0时可能犯Ⅱ型错误。尤其在P接近α时,下结论应慎重,有时应重复实验来证明。总之,具有实用意义的结论要从多方面综合考虑,不能单纯依靠统计结论。
5.报告结论时应列出由样本算得的检验统计量值(如t值),注明是单侧检验还是双侧检验,并写出P值的确切值或范围,如0.01 < P < 0.05,以便读者结合有关资料进行对比分析。
(尹立群 王泓午 赛晓勇)