2.1 二项检验与p值的估计
二项分布是一种具有广泛用途的离散型随机变量的概率分布,它是由贝努里始创的,所以又叫贝努里分布。二项分布是指统计变量中只有性质不同的两项群体的概率分布。所谓两项群体是按两种不同性质划分的统计变量,是二项试验的结果,即各个变量都可归为两个不同性质中的一个,两个观测值是对立的,因此二项分布又可说是两个对立事件的概率分布。二项分布描述了n次试验中恰有k次成功的概率。
只要运用得好,二项检验可用来检验几乎所有的假设和所有类型的统计数据分析。在某些场合,二项检验是最有效的检验,这时检验是用参数和非参数统计来要求的,而在另外一些场合,二项检验是比较有效的,我们只能用非参数统计来要求。然而,即使是在比较有效的情形下,人们也更愿意选用二项检验,因为它操作简单,易于解释,有时它有足够的有效性,使得在应该拒绝零假设时足以拒绝原假设。
现在我们正式介绍二项检验,并同时介绍二项检验的格式。为了方便非参数方法使用者掌握,现在我们叙述一下二项检验的格式。
2.1.1 二项检验
1.数据
样本中包含n次独立基本试验的结果,每个结果或者是“类1”或者是“类2”,但两类不能同时出现。类1的观测数即出现类1的次数是O1,那么类2的观测数是O2=n-O1。
2.假设条件
(1)n次基本试验相互独立。
(2)每次基本试验都以概率p出现结果“类1”。
3.检验统计量
由于我们关注的是结果“类1”出现的概率,我们令检验统计量T表示结果为“类1”的次数,即
4.零分布
令p*是零假设中给定的概率。T的零分布是参数为p=p*,n=样本容量的二项分布。对于n≤20和选定的p值,二项分布表中列出了T的零分布。
对其他的n值和p值,我们可以用正态分布近似,即T的q分位数xq可以自下式近似给出
其中,我们由正态分布表知,zq是标准正态随机变量的q分位数。
5.假设
令p*是某个给定的概率,0≤p*≤1,假设可以是下列3种形式之一。
(1)双边检验:
H 0:p=p*
H 1:p≠p*
理想水平α的拒绝域对应于T零分布的两边,其中左边水平为α1,它近似于α/2,右边水平为α2,也是近似于α/2,其真实的显著水平是a1+α2,由于T的离散性,这一真实显著水平很少为α。
因此,对于给定的特殊p*和n的值,我们从二项分布表中找到t1,使得
并找到t2,使得
其中,Y是参数为p*和n的二项随机变量。
如果n>20,为大样本,我们可以用正态分布逼近,即用(2-2)式去近似t1,t2,其中t1,t2分别是参数为p*和n的二项随机变量的α/2分位数和(1-α/2)分位数,只要在(2-2)式中分别令q=α/2和q=1-α/2即可。
如果T≤t1或T≥t2,则拒绝H0,否则接受零假设。
p值(尾概率)是两概率P(Y小于或等于观测值T)和P(Y大于或等于观测值T)中较小的一个的2倍,对于n≤20,p=p*,p值可以从二项分布表中获得;对于n>20,可利用正态分布表和如下近似公式获得:
和
其中,引入0.5是改进二项分布正态逼近的一种“连续性修正”。
(2)左单边检验:
H 0:p≥p*
H 1:p<p*
由于小的T值预示着H0是假的,于是水平为α的拒绝域是{T:T≤t},其中t由二项分布表获得,参数为p*和n。所以
其中,Y是参数为p*和n的二项随机变量。
如果n>20,我们就用正态逼近,即用(2-2)式去近似t,其中t是参数为p*和n的二项随机变量的α分位点,只要在(2-2)式中令q=α即可。
如果T≤t,则拒绝H0,否则接受零假设。
p值是概率P(Y小于或等于观测值T),当n≤20,p=p*时,它可从二项分布表中获得;如果n>20,可利用正态分布表和如下近似公式获得
其中,引入0.5是改进二项分布正态逼近的一种“连续性修正”。
(3)右单边检验:
H 0:p≤p*
H 1:p>p*
因为大的T值预示着H0是假的,于是水平为α的拒绝域是{T:T≥t},其中t由二项分布表获得,参数为p*和n。所以
其中,Y是参数为p*和n的二项随机变量。
如果n>20,我们就用正态逼近,即用(2-2)式去近似t,其中t是参数为p*和n的二项随机变量的1-α分位点,只要在(2-2)式中令q=1-α即可。
如果T>t,则拒绝H0,否则接受零假设。
p值是概率P(Y大于或等于观测值T),当n≤20,p=p*时,它可从二项分布表中获得;如果n>20,可利用正态分布表和如下近似公式获得
其中,引入0.5是改进二项分布正态逼近的一种“连续性修正”。
一些计算机软件包可以进行这种检验并给出p值,如R语言。基于R语言的二项分布假设检验程序如下:
在R语言软件中,用binom.test()进行二项分布检验和估计。
binom.test(x,n,p=0.5,
alternative=c("two.sided","less","greater"),
conf.level=0.95)
其中,x是成功的次数,或是一个成功次数和失败次数构成的二维向量;n是试验总数,当n是二维向量时,此值无效;p是原假设成功的概率;alternative是备择假设,two.sided表示双边检验,less表示单边检验小于某一个值,greater表示单边检验大于某一个值;conf.level是置信水平,即1-α,通常为0.95。
下面看一个例子:
一项调查显示某城市老年人口比重为14.7%。该市老年协会为了检验该项调查是否可靠,随机抽选了400名居民,发现其中有57人是老年人。问调查结果是否支持该市老年人口比重为14.7%的结论(α=0.05)?
解:根据题意,所检验的问题为:
H 0:p=p0=0.147
H 1:p≠p0
调用binom.test()函数
R语言程序如下:
>binom.test(57,400,p=0.147)
输出结果:
Exact binomial test
data:57 and 400
number of successes=57,number of trials=400,p-value:0.8876
alternative hypothesis:true probability of success is not equal to 0.147
95 percent confidence interval:
0.1097477 0.1806511
sample estimates:
probability of success
0.1425
结果分析:
p-value=0.8876>0.05,接受原假设,即调查结果支持该市老年人口比重为14.7%的结论。
6.理论
通过比较二项检验中的假设,我们很容易看出,二项检验中的检验统计量是二项分布的,即如果T等于基本试验结果中“类1”的个数,其中基本试验是相互独立的,且每次基本试验得“类1”结果的概率为p(如假设中所陈述的),那么T服从参数为p和n的二项分布。当零假设成立时,拒绝域的大小在p等于p*时达到最大。所以对于参数n和p*,二项分布表可用来确定α的精确值。
假设检验只是统计推断中的一个分支。现在我们来讨论另外一个分支,即区间估计(interval estimation)。如果我们想对某个总体的一个未知参数做出某些推断,合理的做法是抽查这个总体中的一个随机样本,并基于这个样本得出有关这个总体参数的一些推断,这种推断可能是“总体参数在a和b之间”,其中a和b是由样本得到的两个实数。由于a和b是由样本值计算得出的,因而是两个统计量的实现值。这两个统计量提供了区间的左端点和右端点,我们分别用L和U代表“左”和“右”。从L到U的区间称为区间估计量(interval estimator)。总体未知参数落在此区间内的概率称为置信系数(confidence coefficient)。区间估计量和置信系数给我们提供了置信区间(confidence interval)。
未知一个特定事件发生的概率p,寻找p的置信区间的方法与二项检验密切相关。
2.1.2 概率或总体比例的置信区间
1.数据
察看含有n个独立基本试验观测值的样本,并记Y为指定事件发生的次数。
2.假设条件
(1)n次基本试验互相独立。
(2)从一个基本试验到另一个基本试验,指定事件发生的概率p是常数。
方法一:对于n≤30,利用二项参数p的精确置信区间表,置信系数是0.90,0.95或0.99。只需给出样本值n和观测值Y,我们就可以利用该表,在对应栏里的交叉处,找到所需置信区间的左限和右限。
方法二:对于n>30或置信系数没有在二项参数p的精确置信区间表中列出的,则用下列正态分布逼近:
和
其中,z1-α/2是正态随机变量的分位数,它可从正态分布表中查出,其置信系数近似于1-α。
为了方便理解,在下面例子中将使用两种方法来计算置信区间。
【例2.1】在某省随机选择20所高中,来检查它们是否达到国家教委提出的优秀标准。调查发现有7所学校达到优秀,并因此被评为“优秀”,那么该省所有高中符合评为“优秀”的比例p的95%置信区间是什么?
方法一:首先,我们假设该省高中的数量足够多,使得高中被评为“优秀”和“不优秀”是相互独立的。
因为我们假设抽取是随机的,那么对于所有学校p是相同的,它代表一个随机抽到的学校被评为“优秀”的概率。
因为n=20,Y=7,我们可以利用二项参数p的精确置信区间表,由二项参数p的精确置信区间表给出的精确95%置信区间是[0.154,0.592]。
方法二:用基于中心极限定理的正态分布逼近,可得:
和
由正态分布逼近得到的置信区间是[0.141,0.559],它接近于精确区间,但是仍能看出它们的差距,这表明用精确置信区间的好处是显然的。
3.理论
对于上面介绍的精确方法一,如果用双边二项检验,置信区间包括所有p*值,使得从样本中获得的数据能够接受
H 0:p=p*
更确切地说,如果我们想形成一个(1-α)的置信区间,就需要观察样本并确定Y值,那么我们要问:“对于给定的Y,我们用什么p*值,使得假设H0:p=p*的一个双边二项检验(α水平)可以接受H0?”即这些p*值应在置信区间中,而拒绝H0的p*值应当不在置信区间中。由于二项检验的每一边有概率α/2,对于给定的Y值,譬如说它是y或更大的值,用仅产生拒绝H0的p*来作为L的选取,则p*的选择应满足
所以。然后对同样的y值,另一个p*的选择应仅产生拒绝域的左边,即满足令,我们知道(2-15)式和(2-16)式不可能用代数求解,只能通过搜索程序在计算机上求解而得到二项参数p的精确置信区间表。
关于二项参数p的置信区间的更多内容,可参见Clopper和Pearson(1934)的有关论述。
对于L和U的大样本逼近,即如果Y是一个二项随机变量,具有参数为p和较大n,那么
是一个近似于标准正态分布的随机变量。那么,如果z1-α/2是正态分布表中1-α/2的分位数,并注意到zα/2=-z1-α/2,故有
对求概率中的不等式两边乘以-1,不等式改变方向
调换顺序,得
再除以n,得
更进一步地近似,在(2-18)式的根号中用估计量Y/n来估计p,得到
其中,L和U与(2-11)式和(2-12)式中的相同。这后面用Y/n对p的近似,其结果与置信区间和假设检验略有不同,当样本量较大时,两者都可以用。
在上述过程中,把L,U同时乘以样本容量n,这样nL和nU就给出了nP的置信上、下限,它可用来检验包括二项随机变量均值在内的假设,因为
H 0:p=p*
等价于
H 0:np=np*
其他求二项分布置信区间的方法可参见Anderson和Burstein(1967,1968)。Quesenberry和Hurst(1964)及Goodman(1965)则给出了处理多项式比例的联合置信区间的方法。