2.2 分位数检验与的估计
二项检验可以用来检验有关随机变量分位数的假设,即所谓的分位数检验。二项检验只需要弱名义尺度来度量,度量尺度对于分位数检验而言至少是次序尺度。因为分位数几乎与度量的名义尺度没有关系。
若被检验的随机变量是连续的,检验的假设是:
H 0:X的P*分位数是指定的x*
根据分位数的定义,这就等价于
H 0:P(X≤x*)=p*
用p代表未知的概率P(X≤x*),则H0就可写成:
H 0:p=p*
检验统计量等于样本值小于或者等于x*的个数,可以用双边二项检验。
若被检验的随机变量不是连续的,此时零假设就变为:
H 0:X的P*分位数是x*
这就等价于
H 0:P(X≤x*)≥p*和P(X≤x*)≤p*
2.2.1 分位数检验
X 1,X2,…,Xn是一组随机样本,数据由Xi的观测值组成。假定这些Xi是随机样本,度量尺度至少是次序的。检验过程中用到两个检验统计量T1,T2。令T1等于观测值中小于等于x*的个数,T2等于观测值中小于x*的个数。那么当数据中没有严格等于x*的数时,则T1=T2,否则T1>T2。
检验统计量T1和T2的零分布是二项分布,参数n是样本量,p=p*和零假设相同。在二项分布表中给出了n≤20和选定p值时的零分布。对于其他n,p值,用正态分布逼近。
T的近似分位数xq为
zp是标准正态随机变量的q分位数。
令x*,p*为指定的值,0<p*<1,则假设可能有以下双边检验、左边检验以及右边检验三种形式。
1.双边检验
H 0:第p*个总体的分位数为x*
这等价于H0:P(X≤x*)≥p*和P(X<x*)≤p*,其中X与样本中的Xi有相同的分布。
H 1:第p*个总体的分位数不是x*
拒绝域对应于T2其值太大,说明可能P(X<x*)>p*,或对应于T1其值太小,说明可能P(X≤x*)<p*。拒绝域可以通过二项分布表,样本量n以及假设概率p*得到。找到t1,使得
Y服从参数为n和p*的二项分布,α1是显著性水平的二分之一。找到t2,使得P(Y≤t2)=1-α2。选α2使得α1+α2大约等于给定的显著性水平。若T1小于等于t1,或者T2大于等于t2,拒绝H0,否则不拒绝H0,显著性水平等于α1+α2。
对于n>20或者二项分布表中没有的p*值,分别令q=α/2,q=1-α/2,由(2-20)式求出t1=xα/2以及t2=x1-α/2。
p值是二项随机变量Y小于等于观测值T1,或大于等于T2的概率中较小值的两倍,当n≤20,p=p*时,可以从二项分布表中查出,对于n>20,用正态分布表,用
和
两式与0.5作为“对连续性的修正”,来改进正态对二项分布的逼近。
2.左边检验
H 0:总体的p*分位数不大于x*
这等价于H0:P(X≤x*)≥p*。
H 1:总体的p*分位数大于x*
这等价于H1:P(X≤x*)<p*。
T 1的值较小时,表示H0是假的,所以用样本量n和特定的概率值p*在二项分布表中得到t1,使得
对于可以接受的水平α,其中Y服从参数为n和p*的二项分布。如果T1小于等于t1,则拒绝H0。如果T1大于t1,则接受H0。当n>20时,在(2-20)式中令q=α,得t1=xα。
p值等于二项随机变量Y小于等于观测值T1的概率,当n≤20,p=p*时,可以从二项分布表中查出;对于n>20,用(2-22)式,它可以从正态分布表中得到。
3.右边检验
H 0:总体的p*分位数大于等于x*
这等价于H0:P(X≤x*)≤p*。
H 1:总体的p*分位数小于x*
这等价于H1:P(X<x*)>p*。
由于较大的T2表示零假设是假的,在二项分布表中,把样本量n和假设的概率p*作为p,得到t2,使得
P(Y>t2)=α
对可接受的显著性水平α,它等同于
如果T2大于t2,则拒绝H0。如果T2小于等于t2,则接受H0。对于n>20,在(2-20)中令q=1-α,得t2=x1-α。
p值是二项随机变量Y大于等于观测值T2的概率,当n≤20,p=p*时,它可从二项分布表中查出;对于n>20,用(2-23)式,它可从正态分布表中得到。
举例说明分位数检验的过程。表2-1显示了28位同学某门课程的成绩,请问80是否可以作为学生成绩的3/4分位数?显著性水平为0.01。
表2-1 学生成绩
假设检验的问题是:H0:3/4分位数是80。
备择假设是:H1:3/4分位数不是80。
用双边分位数检验。显著性水平为0.01的临界域可以通过二项分布表查到,此时n=15,p=0.75。此例中T1等于13,p的值是2·p(Y≤13)=0.002 2<α=0.01,因此拒绝零假设,认为3/4分位数不是80。
2.2.2 分位数的置信区间
数据由独立同分布的随机变量X1,X2,…,Xn的观测组成,X(1)≤X(2)≤…≤X(r)≤…≤X(s)≤…≤X(n)为次序统计量,1≤r≤s≤n。希望找到p*(未知的)分位数,p*是0到1之间的某个指定数。
1.假定条件
(1)X1,X2,…,Xn是随机样本。
(2)Xi的度量尺度至少是次序的。
2.小样本
对于n≤20可以用二项分布表来寻找r与s。在二项分布表中,令p=p*和样本量n,沿着p=p*的量向下找,直到有近似等于α/2的值,此时,1-α近似于给定的置信系数,称这个近似值为α1,相应的y值(远离α1左边)是r-1,加1得到r。然后继续沿着这列向下找,直到有近似等于1-α/2的值,成为1-α2。对应1-α2的y值,记作s-1,加1得到s。这样就得到了α1,α2,r,s。准确置信系数是1-α1-α2,区间估计量是X(r),X(s)之间的区间,而X(r),X(s)可以从数据中得到。那么,
给出了置信区间。如果假设未知的分布函数是连续的,那么,
3.大样本近似
对于n大于20,可以用基于中心极限定理的逼近计算
和
其中,分位数zq从正态分布表找出,1-α是给定的置信系数。一般地,r*,s*不是整数。令r和s是r*,s*向上取整的整数,则(2-31)式给出了近似置信区间,如果位置分布函数是连续的,则近似置信区间由(2-29)式给出。
如上所述,单边的置信区间可以通过只找r或s得到,单边置信区间为
和
如果分布函数是连续的,则为
和
首先考虑分布函数是连续的情况,这种情况比较简单。如果xp*是p*分位数,则有如下关系
其中,X的分布函数与随机样本的分布函数一样。
假设次序统计量X(1)大于某个确定的常数,只要样本中最小的数都大于这个常数,即只要样本中n个值都大于这个常数,X(1)就大于这个常数,选择xp*作为这个常数,可以得到
因为Xi独立,它们有同样的p*分位数xp*。
如果xp*小于X(2),那么X(1)≤xp*<X(2)中,恰有n-1个观测值大于xp*,或者在xp*<X(1)<X(2)中,有n个观测值大于xp*,所以
现在,(2-36)式中的概率由二项分布函数给出,因为每个Xi都有小于等于xp*的概率p*,且Xi是互相独立的,所以由上式可以得到
在二项分布函数F(x)=P(X≤x)=∑i≤x(ni)piqn-i下,则之前的讨论可以做如下推广:
置信系数由下式得出
从而,由(2-38)式和二项分布表可以得到r、s的值,使得
和
则置信系数是1-α1-α21-α。注意,因为假设分布函数是连续的,我们有
因此,可以用二项分布表得到s。
如果X与Xi的分布函数都不是连续的,(2-42)式不成立。由离散随机变量的定义,我们有
和
首先,我们考虑(2-43)式是如何影响(2-38)式,进而影响(2-41)式求r的方法的。因为(2-43)式成立,每个观测值大于xp*的概率小于当X是连续时的值,所以,每个次序统计量大于xp*的倾向,小于X为连续时的情形。即概率P(xp*≤X(r))小于X为连续时(2-38)式给出的值。所以一般情况下,下式成立
如果用上面介绍的方法从二项分布表中找r,那么
现在,我们考虑(2-44)式是怎样通过选择s的值来得到概率1-α2的。因为(2-44)式成立,每个观测值大于等于xp*的概率大于X为连续时的概率,所以观测值大于等于xp*的个数比X为连续时的多,xp*≤X(s)的概率大于X为连续时的情况。因此,(2-38)式可以改为适用于一般情况的式子
所以,如果用先前的方式在二项分布表中找s,我们有
对于任何分布都成立的(2-46)和(2-48)式,可以按如下方式使用
所以,这种方法对于离散随机变量或有结点的有序数据是保守的。因此,求分位数的置信区间的方法,对于有二项分布函数的精确表可用的情形可是可行的。
用大样本方法求r和s是基于标准正态分布近似二项分布的想法,虽然关于怎样由r*,s*求得整数r,s的方法还有不同的争论,但是,此处给出的直接向上取整的方法是个很接近的近似。