非参数统计:基于R语言案例分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2 分位数检验与的估计

二项检验可以用来检验有关随机变量分位数的假设,即所谓的分位数检验。二项检验只需要弱名义尺度来度量,度量尺度对于分位数检验而言至少是次序尺度。因为分位数几乎与度量的名义尺度没有关系。

若被检验的随机变量是连续的,检验的假设是:

H 0XP*分位数是指定的x*

根据分位数的定义,这就等价于

H 0:P(Xx*)=p*

p代表未知的概率PXx*),则H0就可写成:

H 0:p=p*

检验统计量等于样本值小于或者等于x*的个数,可以用双边二项检验。

若被检验的随机变量不是连续的,此时零假设就变为:

H 0XP*分位数是x*

这就等价于

H 0PXx*)≥p*PXx*)≤p*

2.2.1 分位数检验

X 1X2,…,Xn是一组随机样本,数据由Xi的观测值组成。假定这些Xi是随机样本,度量尺度至少是次序的。检验过程中用到两个检验统计量T1T2。令T1等于观测值中小于等于x*的个数,T2等于观测值中小于x*的个数。那么当数据中没有严格等于x*的数时,则T1=T2,否则T1T2

检验统计量T1T2的零分布是二项分布,参数n是样本量,p=p*和零假设相同。在二项分布表中给出了n≤20和选定p值时的零分布。对于其他np值,用正态分布逼近。

T的近似分位数xq

zp是标准正态随机变量的q分位数。

x*p*为指定的值,0<p*<1,则假设可能有以下双边检验、左边检验以及右边检验三种形式。

1.双边检验

H 0:第p*个总体的分位数为x*

这等价于H0PXx*)≥p*PXx*)≤p*,其中X与样本中的Xi有相同的分布。

H 1:第p*个总体的分位数不是x*

拒绝域对应于T2其值太大,说明可能PXx*)>p*,或对应于T1其值太小,说明可能PXx*)<p*。拒绝域可以通过二项分布表,样本量n以及假设概率p*得到。找到t1,使得

Y服从参数为np*的二项分布,α1是显著性水平的二分之一。找到t2,使得PYt2)=12。选α2使得α1+α2大约等于给定的显著性水平。若T1小于等于t1,或者T2大于等于t2,拒绝H0,否则不拒绝H0,显著性水平等于α1+α2

对于n>20或者二项分布表中没有的p*值,分别令q=α/2,q=1-α/2,由(2-20)式求出t1=xα/2以及t2=x1-α/2

p值是二项随机变量Y小于等于观测值T1,或大于等于T2的概率中较小值的两倍,当n≤20,p=p*时,可以从二项分布表中查出,对于n>20,用正态分布表,用

两式与0.5作为“对连续性的修正”,来改进正态对二项分布的逼近。

2.左边检验

H 0:总体的p*分位数不大于x*

这等价于H0PXx*)≥p*

H 1:总体的p*分位数大于x*

这等价于H1PXx*)<p*

T 1的值较小时,表示H0是假的,所以用样本量n和特定的概率值p*在二项分布表中得到t1,使得

对于可以接受的水平α,其中Y服从参数为np*的二项分布。如果T1小于等于t1,则拒绝H0。如果T1大于t1,则接受H0。当n>20时,在(2-20)式中令q=α,得t1=xα

p值等于二项随机变量Y小于等于观测值T1的概率,当n≤20,p=p*时,可以从二项分布表中查出;对于n>20,用(2-22)式,它可以从正态分布表中得到。

3.右边检验

H 0:总体的p*分位数大于等于x*

这等价于H0PXx*)≤p*

H 1:总体的p*分位数小于x*

这等价于H1PXx*)>p*

由于较大的T2表示零假设是假的,在二项分布表中,把样本量n和假设的概率p*作为p,得到t2,使得

P(Yt2)=α

对可接受的显著性水平α,它等同于

如果T2大于t2,则拒绝H0。如果T2小于等于t2,则接受H0。对于n>20,在(2-20)中令q=1,得t2=x1

p值是二项随机变量Y大于等于观测值T2的概率,当n≤20,p=p*时,它可从二项分布表中查出;对于n>20,用(2-23)式,它可从正态分布表中得到。

举例说明分位数检验的过程。表2-1显示了28位同学某门课程的成绩,请问80是否可以作为学生成绩的3/4分位数?显著性水平为0.01。

表2-1 学生成绩

假设检验的问题是:H0:3/4分位数是80。

备择假设是:H1:3/4分位数不是80。

用双边分位数检验。显著性水平为0.01的临界域可以通过二项分布表查到,此时n=15,p=0.75。此例中T1等于13,p的值是2·pY≤13)=0.002 2<α=0.01,因此拒绝零假设,认为3/4分位数不是80。

2.2.2 分位数的置信区间

数据由独立同分布的随机变量X1X2,…,Xn的观测组成,X(1)X(2)≤…≤Xr≤…≤Xs≤…≤Xn为次序统计量,1≤rsn。希望找到p*(未知的)分位数,p*是0到1之间的某个指定数。

1.假定条件

(1)X1X2,…,Xn是随机样本。

(2)Xi的度量尺度至少是次序的。

2.小样本

对于n≤20可以用二项分布表来寻找rs。在二项分布表中,令p=p*和样本量n,沿着p=p*的量向下找,直到有近似等于α/2的值,此时,1近似于给定的置信系数,称这个近似值为α1,相应的y值(远离α1左边)是r-1,加1得到r。然后继续沿着这列向下找,直到有近似等于1-α/2的值,成为12。对应12y值,记作s-1,加1得到s。这样就得到了α1α2rs。准确置信系数是112,区间估计量是XrXs之间的区间,而XrXs可以从数据中得到。那么,

给出了置信区间。如果假设未知的分布函数是连续的,那么,

3.大样本近似

对于n大于20,可以用基于中心极限定理的逼近计算

其中,分位数zq从正态分布表找出,1是给定的置信系数。一般地,r*s*不是整数。令rsr*s*向上取整的整数,则(2-31)式给出了近似置信区间,如果位置分布函数是连续的,则近似置信区间由(2-29)式给出。

如上所述,单边的置信区间可以通过只找rs得到,单边置信区间为

如果分布函数是连续的,则为

首先考虑分布函数是连续的情况,这种情况比较简单。如果xp*p*分位数,则有如下关系

其中,X的分布函数与随机样本的分布函数一样。

假设次序统计量X(1)大于某个确定的常数,只要样本中最小的数都大于这个常数,即只要样本中n个值都大于这个常数,X(1)就大于这个常数,选择xp*作为这个常数,可以得到

因为Xi独立,它们有同样的p*分位数xp*

如果xp*小于X(2),那么X(1)xp*X(2)中,恰有n-1个观测值大于xp*,或者在xp*X(1)X(2)中,有n个观测值大于xp*,所以

现在,(2-36)式中的概率由二项分布函数给出,因为每个Xi都有小于等于xp*的概率p*,且Xi是互相独立的,所以由上式可以得到

在二项分布函数Fx)=PXx)=∑ixnipiqn-i下,则之前的讨论可以做如下推广:

置信系数由下式得出

从而,由(2-38)式和二项分布表可以得到rs的值,使得

则置信系数是1121。注意,因为假设分布函数是连续的,我们有

因此,可以用二项分布表得到s

如果XXi的分布函数都不是连续的,(2-42)式不成立。由离散随机变量的定义,我们有

首先,我们考虑(2-43)式是如何影响(2-38)式,进而影响(2-41)式求r的方法的。因为(2-43)式成立,每个观测值大于xp*的概率小于当X是连续时的值,所以,每个次序统计量大于xp*的倾向,小于X为连续时的情形。即概率Pxp*Xr)小于X为连续时(2-38)式给出的值。所以一般情况下,下式成立

如果用上面介绍的方法从二项分布表中找r,那么

现在,我们考虑(2-44)式是怎样通过选择s的值来得到概率12的。因为(2-44)式成立,每个观测值大于等于xp*的概率大于X为连续时的概率,所以观测值大于等于xp*的个数比X为连续时的多,xp*Xs的概率大于X为连续时的情况。因此,(2-38)式可以改为适用于一般情况的式子

所以,如果用先前的方式在二项分布表中找s,我们有

对于任何分布都成立的(2-46)和(2-48)式,可以按如下方式使用

所以,这种方法对于离散随机变量或有结点的有序数据是保守的。因此,求分位数的置信区间的方法,对于有二项分布函数的精确表可用的情形可是可行的。

用大样本方法求rs是基于标准正态分布近似二项分布的想法,虽然关于怎样由r*s*求得整数rs的方法还有不同的争论,但是,此处给出的直接向上取整的方法是个很接近的近似。