6 小样本的精确检验
以上讲述的置信区间和各种检验都是用于大样本的。随着样本量n不断增大,单元格频次也逐渐增大,并且χ2、G2和M2等统计量的分布越来越近似于卡方分布。当样本量很小时,在推论时就不能使用大样本的近似分布,而要使用精确检验。本节将讨论二维列联表的精确检验。
6.1 精确检验
我们从2×2列联表开始。变量独立的H0为θ=1。单元格频次的小样本概率分布是指行和列边缘和与观测边缘和相同的一组表格的概率分布,在单元格频次满足泊松、二项或多项抽样假定的条件下,适合这组表格的概率分布被称为超几何分布。
在行和列总数给定的情况下,一个单元格的频次(例如n11)决定其他三个单元格的频次。因此,四个单元格频次的超几何概率公式可以用一个单元格的频次n11的概率公式表示。在θ=1的假设下,n11为(0,1,2,3,4)的概率公式为:
二项式系数等于:
检验独立性的p值是一组n11小于等于或大于等于观测值的右尾超几何概率之和,这组结果要像观测结果一样,可以为支持备择假设提供证据。例如,假设Ha:θ>1或θ<1。在边缘和给定时,n11越大,样本概率=(n11n22)/(n12n21)也越大;反之,n11越小,样本概率也越小:两者均提供了支持备择假设的证据。注意,概率和p值是两个概念,在概率最大和最小时,p值都最小。p值是n11大于等于或小于等于观测值的全部结果的右尾超几何概率。以表1-6为例,n11≥3的结果有两个,一个是观测结果n11=3,另一个是观测结果n11=4,所以全部结果的右尾超几何概率为p=p(3)+p(4)。这种2×2列联表的检验是R. A.费舍尔于1934年提出的,被称为费舍尔精确检验。
表1-6 费舍尔品茶实验
资料来源:Agresti,1996。
费舍尔的一位同事声称,在喝茶时她可以区分出一杯茶是先倒入茶后倒入牛奶,还是先倒入牛奶后倒入茶。费舍尔于1935年发表《实验设计》一文,用来说明他的检验方法。在实验时,费舍尔准备了8杯茶,其中4杯先倒入茶后倒入牛奶,另外4杯先倒入牛奶后倒入茶。然后将8杯茶随机给被试品尝。
表1-6是实验结果。费舍尔精确检验的假设是H0:θ=1,Ha:θ>1。H0意味着被试的猜测独立于茶、牛奶的倒入次序,即被试失败;Ha表示被试的猜测与茶、牛奶倒入的次序正相关,即被试获得了成功。因为被试已知有4杯茶是先倒入牛奶,所以列和行的边缘和是相同的,而且是固定的。
对于所有行和列边缘和为(4,4)的2×2列联表,n11的H0分布是超几何分布,其所有可能的值为(0,1,2,3,4)。表1-6显示,被试猜对了有3杯茶是先倒入牛奶的。这一结果的概率等于:
极端值的概率等于:
单侧备择假设Ha:θ>1的p值是观测值右尾概率的全部值。在本例中,n11=3的右尾概率是:p=p(3)+p(4)=0.243。该值偏大,不能充分否定H0,即不能证明被试的猜测与牛奶、茶倒入的次序之间有关联。如果被试都猜对了(n11=4),p=p(4)=0.014,那么我们就可以相信被试的能力。换言之,如果θ=1,则n11=4的可能性极小;反过来,当n11=4时,θ=1就不可能成立,因此被试的猜测与牛奶和茶的倒入次序是相关的。这种只有在观测值为极端值时才能支持变项相关的假设的现象缘于样本量太小了。
精确检验涉及几个专业术语,对此我们要加以说明:①观测值和观测表——依据调查或实验得到的数据和数据表,表1-6就是通过实验得到观测表以及观测值。②极端值。以表1-6为例,第一列的边缘和是4,n11=3,因此n11大于3的值只有4,4就是极端值。而比3小的只有0、1、2,0、1、2也是极端值。换言之,可以选择观测值两端中的一组或一个数作为极端值。在单侧检验中,取大于还是小于观测值的极端值要视研究假设而定。
精确检验的特点是直接计算单元格频次的概率,比上述的大样本χ2检验精确。
6.2 p值和犯Ⅰ类错误的概率
双侧备择假设Ha:θ≠1是卡方检验中非独立性的研究假设,其精确p值的定义为概率不大于观测值各表的双尾概率之和。计算方法是:将对应于观测值n11的各表第一单元格的y[p(y)≤p(n11)]的超几何概率加总。以表1-7为例,除双侧备择假设Ha的p值p(2)=0.514外,将其他所有双尾概率p加总,即p=p(0)+p(1)+p(3)+p(4)=0.486。当行和列的边缘和相等时,超几何分布是对称的,备择假设的双侧p值是单侧p值的倍数。
表1-7 与表1-6边缘和相同的表格的超几何分布
备择假设的双侧p值是皮尔森χ2统计量至少与观测值一样大的那些表格的概率之和,说明备择假设的双侧p值使用的是精确小样本卡方分布,而不是大样本卡方分布。表1-7给出了边缘和与表1-6相同的5个表的χ2统计量,因为只有3个不同的值,所以统计量是高度离散的,这与连续卡方分布相差很大。图1-3绘制了χ2的精确小样本分布。图1-3显示,当χ2等于0.0、2.0和8.0时,p 分别为0.514、0.458和0.028。对于观测表1-6,(n11=3)是最大值,p(3)=0.229也是最大的。当χ2=2.0时,p=p(0)+p(1)+p(3)+p(4)=0.014+0.229+0.229+0.014=0.486。这一结果表明χ2的p值等于上述各表的概率[p(y)≤p(n11)]之和。
图1-3 表1-6的皮尔森卡方精确分布
当数值最小的单元格的频次大于5时,超几何分布的计算相当烦琐。一种变通的方法是对皮尔森卡方统计量进行耶茨连续校正,这样可以获得卡方分布的p值,该值近似费舍尔精确p值。但现在不必这样做了,因为有了计算机软件,即使是基于χ2的超几何p值的大样本,也可以进行费舍尔精确检验。
对于小样本,因为n11只有几个值,所以精确分布是高度分散的,p值也只有几个。表1-7显示,对于单侧检验,p 值有5个;对于双侧检验,p值有3个。这影响假设检验的错误率。假设我们规定犯Ⅰ类错误(H0为真但被否定)的概率是0.05,也就是说,如果p≤0.05,我们否定H0。可是,由于费舍尔精确检验是离散的,得不到确切的小于等于0.05的p值。以上述品茶实验的结果为例,单侧小于0.05的p值只有在n11=4时等于0.014。如果H0为真,实际的犯Ⅰ类错误的概率是0.014,而非0.05。因为实际的错误率小于规定的错误率(0.05),所以费舍尔精确检验是保守的。
以上事实告诉我们,当检验统计量是离散的,而研究人员将检验水平确定在某一水平(例如0.05)上时,会产生严重问题。对于连续分布的检验统计量而言,p值都具有区间为[0,1]的H0分布。也就是说,p可以是0和1之间的任何值,因此p落在确定水平α上的概率就等于α,期望p值是0.5。但是,对于离散分布的检验统计量,其p值的H0分布是离散的,而且期望值大于0.5。仍以品茶实验的结果为例。当p(0)=0.014时,p值等于0.014;当p(1)=0.229时,p 值等于0.243;等等。根据表1-7,期望p值是:
∑p× Prob(p)=0.014(0.014)+0.243(0.229)+0.757(0.514)+0.986(0.229)+1.000(0.014)=0.685
这个数值表明,离散分布的p值都趋于过大。
为了消除对离散数据检验的保守性,我们可以用p中值替代p值。具体的做法是:取观测结果的概率的一半加上极端结果的概率,其H0期望概率等同于连续变量的常规p 值(0.5)。以上述品茶实验的结果为例,n11的观测结果是3,极端值是4,单侧的p中值为:
p(3)/2+p(4)=0.229/2+0.014=0.129
对应的定序p 值是0.243。对于基于χ2统计量的双侧检验,p 中值等于:
p(χ2=2)/2+p(χ2=8)=0.257
对应的定序p值是0.486。
与定序p值的精确检验不同的是,应用p中值的检验不能保证犯Ⅰ类错误的概率小于某一确定的值。尽管如此,p中值检验比费舍尔精确检验的保守性小,是一种较好的方法。对于两种p值,最好的做法是将它们作为否定H0的证据写进调查报告,而不要简单地依据它们否定或肯定H0。
表1-5的行和列边缘和都是固定的。如果只有行或列的边缘和是固定的,例如行的边缘和是二项固定值,对于这种表格的精确检验,其保守性要比费舍尔精确检验小。
6.3 概率的小样本置信区间
精确推论不仅仅限于检验,同时还可以建构概率的小样本置信区间。费舍尔精确检验的一般形式是对任意值进行零假设检验,H0:θ=θ0。与这一假设相符的是小样本置信区间。也就是说,当H0:θ=θ0时,95%的置信区间包含了所有θ0的值时,p>0.05,即H0不能在0.05的水平上被否定。
正如精确检验一样,小样本置信区间也因数据的离散性而显得保守。原因是,真置信区间不会小于名义置信区间,实际上还更大。例如,与95%名义置信区间相对应的真置信区间是98%。当样本量较小时,名义置信区间和真置信区间之间的差异会相当明显。为了消除真置信区间的保守性,我们可以建构一个与应用p中值检验相一致的区间,包含p中值大于0.05的所有θ0值。该区间较小,但它的实际置信水平只是趋近名义置信区间水平,不一定与其相等。这两种置信区间的计算很复杂,需要使用特殊软件(如StatXact、Cytel Software等)。
对于品茶实验数据(表1-6),真概率的“精确”95%置信区间等于(0.21,626.17);p中值的置信区间等于(0.31,308.55)。由于样本小,这两个区间都很大。
6.4 大表格的独立性精确检验
大表格是指行和列大于2×2的表格。对于这样的表格,变量独立的精确检验应用多元超几何分布。多元超几何分布也适用于和观测表拥有相同行和列边缘和的一组表格。精确检验不能用手工和计算器来完成,而要使用计算机。研究人员首先要选择一个能描述观测数据和H0之间差距的检验统计量,例如,对于定类变量可以使用χ2作为检验统计量,p值就是χ2至少等于观测值的H0的概率。不同之处在于,计算时使用精确分布而不是大样本卡方分布。
对于使用大样本近似卡方分布不可靠的表格,可以用软件进行精确检验。软件StatXact可以对定类数据做很多精确推论,例如,表1-8是3×9表,大多数单元格的频次不是0就是1。对于这张表,χ2=22.3,df=16,χ2分布的卡方近似p=0.13。由于单元格频次太小,我们对p值的近似有效性存疑。依靠StatXact获得的χ2的精确抽样分布,可以得到精确的p值0.001。这两个p值相差很大。
表1-8 3×9表的小样本检验
如果变量是定序的,则可以通过对行和列进行层次赋值的方法,应用统计量M2进行大样本的定序检验,其结果优于其他量度。