2.3 假设检验
统计推断的另一个重要内容就是假设检验(hypothesis testing)。参数估计是利用样本信息推断未知的总体参数。假设检验则是先对总体参数提出一个假设,然后利用样本信息来判断这一假设是否成立。在回归分析中,我们将检验有关回归系数的假设。
2.3.1 研究假设与零假设
研究假设(research hypothesis, H1)是指在研究过程中希望得到支持的假设。在利用随机样本对总体进行推论时,不是直接检验研究假设H1,而是通过检验与其相对立的假设,来间接获取研究假设H1正确的可能性。我们称这个与研究假设相对立的假设为零假设(null hypothesis, H0)。在研究过程中,零假设往往是研究者希望被否定的假设。这是因为零假设往往假定变量之间的关系在总体中不存在,而研究者的目的通常都是希望基于样本所得到的变量之间存在某种关系的结论在总体中成立。研究者所担心的是基于样本的结论可能是由抽样误差造成的。通过检验可以让我们知道样本中与H0相违的统计数据并不是由抽样误差造成的。也就是说,H0正确的可能性很小,从而也就间接地肯定了H1。
2.3.2 两类错误
在用样本推断总体的时候,总是存在犯错误的可能性。我们可以将所犯的错误划归为以下两类。
第Ⅰ类错误(或α错误):在假设检验中否定了本来是正确的零假设。这类错误也叫做弃真错误。通常我们把犯这种错误的概率记为α。
第Ⅱ类错误(或β 错误):在假设检验中没有否定本来是错误的零假设。这类错误也叫做纳伪错误。我们把犯这种错误的概率记作β。
要完全消除这两类错误是不可能的,但是我们可以在一定程度上减少这两类错误发生的可能性。一个最常用的方法就是增加样本量。另外,第I类错误在检验过程中是可以由研究者自行设定的,这也就是下面将谈到的显著性水平问题。除去第I类错误以后,检验是否有效就取决于β的大小。在统计学中,将1 -β称作检验效能(power of test)。
2.3.3 否定域与显著性水平
假设检验的步骤概括来说就是:假设零假设正确的情况下,将样本统计量(比如样本均值)转化为服从某一分布的检验统计量(比如Z值),然后对点估计量和零假设下总体参数之间的差异程度进行度量。如果零假设成立情况下得到的检验统计值落在某区域内,则接受零假设,这块区域就被称为接受域(region of acceptance),同时将接受域之外的区域称为否定域(region of rejection)。如果零假设成立情况下得到的检验统计值落在否定域内,则否定零假设。另外,否定域在整个抽样分布中所占的比例,叫做显著性水平,或显著度,代表样本的统计值落在否定域内的可能性。在社会科学研究中可以看到,显著度越小说明越难以否定零假设,即越难以支持研究假设。
否定域的大小与显著性水平有一定关系,在确定了显著性水平α以后,就可以计算出否定域的临界值。在实际研究中,假设零假设正确时利用观测数据得到与零假设相一致结果的概率称为p值(p-value)。比如我们的零假设为1988年中国城市居民月平均基本工资为100元,那么从CHIP88数据得到的结果和月平均基本工资为100元假设相吻合的概率,就是p值。
p值并不是零假设正确的概率,而是指假如零假设正确的话,样本观测结果在抽样分布中可能发生的概率。显著性水平α和p值的关系在于,显著性水平α是研究者设定的理论值,而p值是利用样本计算得出的实际值。
在实际研究中,如果零假设被否定了,就可以认为样本结果是统计显著的。实际上,“显著”与“不显著”之间是没有清楚的界限的。只是随着p值的减小,结论的可靠性越来越强而已。在社会科学研究里通常把p≤0.05作为“显著水平”的标准,但是实际上0.049和0.051之间并没有什么本质的差别,因此,有的研究者选择仅仅报告p值,而将结论留给读者。有的研究者则喜欢将p值与显著性水平α相比较进而给出结论:如果p值小于或等于显著性水平α,则否定零假设;如果p值大于显著性水平α,则不否定零假设。
当假设检验的结果在接受域中,即结果有1-α的可能性与零假设相吻合,我们就只能说样本没有提供充分的证据来否定零假设,同时,由于可能存在第Ⅱ类错误,这并不能表明零假设就是正确的。因此习惯的说法是,不能否定零假设。
2.3.4 单尾检验与双尾检验
假设检验可以进一步分为单尾检验(也称单侧检验,one-tailed test)和双尾检验(也称双侧检验,two-tailed test)。
单尾检验是指否定域在曲线的左端或右端区域的情况,双尾检验是指否定域在曲线的两端区域的情况,如图2-11和图2-12所示。
一个检验是双尾还是单尾取决于对应于零假设的备择假设H1(研究假设)。在单尾检验中,可选任一方向的单侧备择假设:如果选H1: θ<θ0,则称此单尾检验为左侧检验;如果选H1: θ>θ0,则称此单尾检验为右侧检验。在双尾检验中,备择假设是无方向或双向的H1: θ≠θ0。
图2-11 单尾检验(右侧)
图2-12 双尾检验
在Z检验(正态检验)中,常用的显著度α与否定域[| Z|, ∞)有如下的对应关系(见表2-2)。
表2-2 常用显著度下的否定域
2.3.5 参数检验与非参数检验
统计推断中假设检验的方法可以分为两大类:参数检验和非参数检验。
参数检验的基础是假设我们已经知道总体分布的既有特征。Z检验、t检验和F检验都属于参数检验法。在研究具体问题时,参数检验通常都是我们的首选。这是因为它具有较大的检验效力,也就是犯第Ⅱ类错误的概率β更小,因此使用它能够从数据中提取更多的信息。
参数检验的条件要求较高,通常称为“参数条件”。当参数条件得不到满足时,这种检验就不准确。另一种检验方法则不需要参数条件,它被称为非参数检验法。由于它对总体的分布形状没有任何特别的要求,因此也称其为自由分布检验法。社会科学研究中常用的对分类变量的χ2检验就是一种非参数检验法。有关非参数检验法,在此暂不详加讨论。下面将着重探讨如何进行参数检验。
2.3.6 假设检验的步骤小结
2.3.7 单总体均值的检验
在对单一总体进行均值检验时,我们首先需要判断样本的大小。一般来说,当n>30时,就将样本视为大样本;当n≤30时,就将样本视为小样本。
1.大样本
根据中心极限定理:在大样本情况下,如果总体均值为μ0、方差为σ2,则样本均值的抽样分布近似服从均值为μ0、方差为的正态分布。对进行标准化以后就可以得到总体均值的Z检验统计量:
当总体方差σ2未知的时候,需要用样本方差S2来代替总体方差,得到t检验统计量。当n越来越大时,t分布的密度曲线就越来越接近正态分布,所以这时总体均值的Z检验统计量近似为:
参照前面2.2.4节列出的求解置信区间的步骤,得出总体均值μ在置信水平1-α下的置信区间为:
[例题2-2] 假设有人提出1988年全国城市居民年平均收入为1900元,而在1988年的CHIP数据中,我们发现居民的年收入均值为1871.35元,标准差为1077.32,那么在0.05的显著性水平下,这一样本结果和1900元的提法一致吗?
首先建立零假设与研究假设:
H0: μ=1900和H1: μ≠1900。
其次,根据样本数据,=1871.35, S=1077.32, n=15862,利用公式(2-10)计算Z检验统计量为:
通过查标准正态分布表或者利用表2-2可以看到Zα/2=Z0.025=1.96,并且Z的绝对值不仅大于Z0.025而且大于Z0.0005=3.29,所以我们否定零假设,即认为1988年中国城市居民的年收入均值不是1900元。这说明不仅在95%的置信水平,而且在99.9%的置信水平上我们都可以认为样本结果和1900元的提法不一致。这样的结果的出现可能是由于两种可能:一是1900元的提法不对;二是尽管1900元的提法是对的(如果来自更可靠的数据),但CHIP88数据的样本是有偏的。在95%的置信水平上,均值的置信区间为, ,即(1854.59, 1888.12)。
在Stata中仍然采用t检验,但是可以看到上面的Z值(-3.35)和下表中的t值(-3.3498)是非常接近的。
2.小样本
对于n≤30的小样本数据,我们假设样本来自按正态分布的总体。我们在2.1.5节的最后提到,当总体分布服从正态分布时,抽样分布也是服从正态分布的。如果方差σ2已知,可以按照公式(2-2)对总体均值进行检验,则
这时,总体均值μ在置信水平1 -α下的置信区间为。但是均值未知而方差已知的情况比较少见。
当σ未知时,用样本方差S2代替总体方差σ2,此时给出的检验统计量服从自由度为n-1的t分布,且不能将其近似为正态分布进行计算。此时,
同理,可以将总体均值μ在置信水平1-α下的置信区间改写为:
[例题2-3] 如果将1988年的CHIP数据看作一个总体,当年的居民年平均收入为1871.4元。从中随机抽出来自A市B 社区居民的一个样本,样本容量为20。假设这些个案的月平均基本工资数据如下:
1348.5 1192.4 2160 1101.8 1586.9 1078.2 1461 1313 1095.7 1150 1441.6 3882.5 580.1 2096.7 788 4089 964 1944 828.6 5109.3
我们现在想知道这个社区居民的年平均收入是否与全国城镇居民的年平均收入相等。对于这个检验,零假设是H0: μ=1871.4,备择假设是H1: μ≠1871.4。
根据样本数据计算得:均值=1760.6,标准差S=1212.1。
由于n<30,因此,统计量为:
根据自由度n-1=19,查t分布表得t0.025(19)=2.093。因为| t| <t0.05(19),所以不能否定原假设,即不能否定B社区中居民的年平均收入和全国的年平均收入相等。
对于上述过程,我们也可以采用一些统计软件来完成,以下是采用Stata来完成上述假设检验的结果:
2.3.8 单总体方差的检验
对于总体方差的检验,不管是大样本还是小样本,都要求总体服从正态分布,否则推论会有很大的偏差。根据2.1.3节,我们选取χ2作为总体方差的检验统计量,其计算如下:
由此可以得到,总体方差σ2在置信水平1-α下的置信区间为:
方差的检验一般用右侧检验比较多,因为在实际研究中经常希望了解总体不确定程度的上限。
2.3.9 两总体均值差的检验
1.独立大样本
设两个独立总体的均值分别为μ1和μ2,方差分别为和,从中随机抽取两个样本。若两个样本容量都很大,即n1>30且n2>30,则根据中心极限定理,两个样本均值和的抽样分布分别服从分布。那么,两个样本均值差的抽样分布则服从的正态正态分布。这样,检验总体均值差可以采用Z检验统计量:
因此,两个总体的均值差(μ1-μ2)在置信水平1-α下的置信区间为:
由于实际情况下,σ1与σ2很少是已知的,因此大样本情况下我们通常都用S1与S2来直接替代σ1和σ2。
2.独立小样本
这里还是需要两个样本相互独立。当两个样本中至少有一个是小样本(即n≤30)时,我们就需要用到小样本假设检验。需要假设小样本来自正态总体。
情形1:两个总体的方差都是已知的
这种情况在实际研究中很少出现。如果出现,我们可以运用和大样本一样的方法进行检验,即采用公式(2-14)计算检验统计量。
情形2:两个总体方差未知,但已知两者相等
因为两个样本方差相等,所以通常的做法是将两个样本数据合并,然后给出总体方差的合并估计量,其中,是两个样本方差的加权平均,也称为两个样本的联合方差。两个样本均值之差标准化以后服从自由度为n1+n2-2的t分布,因此采用的检验统计量为:
在置信度为1-α的水平下,置信区间为:
情形3:两个总体方差未知,但已知两者不相等
如果两个总体的方差不相等,一种近似的方法是使用如下统计量:
其中t检验的自由度采用Scatterthwaite校正方法,即:
不过,采用该方法计算出的自由度有时会出现不是整数的情况。所以,一个更简单、更直接的方法是利用GLS回归,我们会在第14章中介绍这一方法。
我们如何判断两个总体的方差是否相等呢?常用的方法是F初步检验法。根据前面讲过的有关统计分布的知识,由于,因此F(n1-1, n2-1)。而要检验总体方差是否相等,就可以转化为检验两个总体方差之比是否等于1。利用检验统计量:
由于F统计量不对称,使用双尾检验计算临界值和判断左侧还是右侧检验相对麻烦。一般情况下,为了方便起见,在进行检验的时候,将定义为两个样本中较大的那个样本方差。这样所有的检验都变成了右侧检验。如果两个总体确实具有相等的方差,那么与的值趋于相等,就趋近于1。因此,一个接近于1的F统计量通常将是支持的证据。
[例题2-4] 在CHIP88数据中,有女性(sex =1)7586人,其年收入均值为1702.654,标准差为998.066。男性(sex=0)有8276人,其年收入均值为2025.973,标准差为1123.176。那么在95%的置信水平下,是否存在收入的性别差异呢?
这实际上是有关双总体均值差的假设检验问题。根据上面的内容,我们知道对均值差的检验应该区分为方差相等和方差不相等两种情况。因此,我们需要先对方差是否相等加以检验。
首先检验方差是否相等,检验统计量:
在95%置信水平下的F值为1.04。因此,我们看到,计算得到的F值1.27要大于95%置信水平下的临界值1.04,这表明两个总体的方差不相等。这一检验也可以借助统计软件来完成,以下为相关的Stata命令和输出结果。
其次,既然方差不相等,那么我们就采用公式(2-16)来计算总体均值差的检验统计量:
根据公式(2-17)中的 Scatterthwaite 自由度校正法,计算得到 df =15844.8。在95%的置信水平下,t的临界值为-1.64。
由于t=19.2>1.64,所以我们否定原假设,而接受备择假设,即认为男性和女性的年收入均值是不相等的。
下面给出了用Stata直接进行计算的输出结果,与上面我们通过手动计算所得到的结论完全一致。
在双独立样本均值差的检验中,判断使用何种统计量进行检验的步骤小结:
3.配对样本
前面谈到的都是两个独立样本的检验问题,但在社会科学研究中,还会经常碰到配对样本的问题。比如在历时研究中,就会在不同时期对同一个体进行重复访问。如果仍使用两个独立样本的检验方法,不仅与实际情况严重不符,也会浪费成对数据的重要信息。这时就需要用到配对样本的检验。
大样本情况下(即n>30时),采用检验统计量:
其中,μd表示成对数据总体差值d的均值;
表示成对样本数据差值d的均值(即;
Sd表示成对样本差值d的标准差;
n表示成对数据的个数,即有多少配对。
因此,两个总体均值差μ1-μ2在置信水平为1-α下的置信区间为:
在小样本情况下(即n≤30时),须假设差值的总体服从正态分布,采用检验统计量:
因此,两个总体均值差μ1-μ2在置信水平为1-α下的置信区间为:
[例题2-5] 基于1990年美国GSS调查数据,我们想检验家庭中父亲和母亲的受教育程度是否有差异。这实际上就是一个配对样本检验的情况。父亲受教育年限的变量为paeduc,母亲受教育年限的变量为maeduc。
这个检验的零假设为:H0: μp-μm=0。由于这个检验用手动计算会比较麻烦,所以下面采用Stata来完成此检验。以下是输出的统计结果:
输出结果第四行中的diff一栏就包含了公式(2-20)中d的均值和标准差,据此,可以计算得到检验统计量。根据最后两行信息,可以看到,在0.05的显著性水平下,我们可以认为,父亲的平均受教育年限和母亲的平均受教育年限相差不大。