2.2 分位数检验与的估计_非参数统计：基于R语言案例分析-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.2 分位数检验与的估计

二项检验可以用来检验有关随机变量分位数的假设，即所谓的分位数检验。二项检验只需要弱名义尺度来度量，度量尺度对于分位数检验而言至少是次序尺度。因为分位数几乎与度量的名义尺度没有关系。

若被检验的随机变量是连续的，检验的假设是：

H 0：X的P*分位数是指定的x*

根据分位数的定义，这就等价于

H 0:P(X≤x*)=p*

用p代表未知的概率P（X≤x*），则H0就可写成：

H 0:p=p*

检验统计量等于样本值小于或者等于x*的个数，可以用双边二项检验。

若被检验的随机变量不是连续的，此时零假设就变为：

H 0：X的P*分位数是x*

这就等价于

H 0：P（X≤x*）≥p*和P（X≤x*）≤p*

2.2.1 分位数检验

X 1，X2，…，Xn是一组随机样本，数据由Xi的观测值组成。假定这些Xi是随机样本，度量尺度至少是次序的。检验过程中用到两个检验统计量T1，T2。令T1等于观测值中小于等于x*的个数，T2等于观测值中小于x*的个数。那么当数据中没有严格等于x*的数时，则T1=T2，否则T1＞T2。

检验统计量T1和T2的零分布是二项分布，参数n是样本量，p=p*和零假设相同。在二项分布表中给出了n≤20和选定p值时的零分布。对于其他n，p值，用正态分布逼近。

T的近似分位数xq为

zp是标准正态随机变量的q分位数。

令x*，p*为指定的值，0＜p*＜1，则假设可能有以下双边检验、左边检验以及右边检验三种形式。

1.双边检验

H 0：第p*个总体的分位数为x*

这等价于H0：P（X≤x*）≥p*和P（X＜x*）≤p*，其中X与样本中的Xi有相同的分布。

H 1：第p*个总体的分位数不是x*

拒绝域对应于T2其值太大，说明可能P（X＜x*）＞p*，或对应于T1其值太小，说明可能P（X≤x*）＜p*。拒绝域可以通过二项分布表，样本量n以及假设概率p*得到。找到t1，使得

Y服从参数为n和p*的二项分布，α1是显著性水平的二分之一。找到t2，使得P（Y≤t2）=1-α2。选α2使得α1+α2大约等于给定的显著性水平。若T1小于等于t1，或者T2大于等于t2，拒绝H0，否则不拒绝H0，显著性水平等于α1+α2。

对于n＞20或者二项分布表中没有的p*值，分别令q=α/2，q=1-α/2，由（2-20）式求出t1=xα/2以及t2=x1-α/2。

p值是二项随机变量Y小于等于观测值T1，或大于等于T2的概率中较小值的两倍，当n≤20，p=p*时，可以从二项分布表中查出，对于n＞20，用正态分布表，用

和

两式与0.5作为“对连续性的修正”，来改进正态对二项分布的逼近。

2.左边检验

H 0：总体的p*分位数不大于x*

这等价于H0：P（X≤x*）≥p*。

H 1：总体的p*分位数大于x*

这等价于H1：P（X≤x*）＜p*。

T 1的值较小时，表示H0是假的，所以用样本量n和特定的概率值p*在二项分布表中得到t1，使得

对于可以接受的水平α，其中Y服从参数为n和p*的二项分布。如果T1小于等于t1，则拒绝H0。如果T1大于t1，则接受H0。当n＞20时，在（2-20）式中令q=α，得t1=xα。

p值等于二项随机变量Y小于等于观测值T1的概率，当n≤20，p=p*时，可以从二项分布表中查出；对于n＞20，用（2-22）式，它可以从正态分布表中得到。

3.右边检验

H 0：总体的p*分位数大于等于x*

这等价于H0：P（X≤x*）≤p*。

H 1：总体的p*分位数小于x*

这等价于H1：P（X＜x*）＞p*。

由于较大的T2表示零假设是假的，在二项分布表中，把样本量n和假设的概率p*作为p，得到t2，使得

P(Y＞t2)=α

对可接受的显著性水平α，它等同于

如果T2大于t2，则拒绝H0。如果T2小于等于t2，则接受H0。对于n＞20，在（2-20）中令q=1-α，得t2=x1-α。

p值是二项随机变量Y大于等于观测值T2的概率，当n≤20，p=p*时，它可从二项分布表中查出；对于n＞20，用（2-23）式，它可从正态分布表中得到。

举例说明分位数检验的过程。表2-1显示了28位同学某门课程的成绩，请问80是否可以作为学生成绩的3/4分位数？显著性水平为0.01。

表2-1 学生成绩

假设检验的问题是：H0：3/4分位数是80。

备择假设是：H1：3/4分位数不是80。

用双边分位数检验。显著性水平为0.01的临界域可以通过二项分布表查到，此时n=15，p=0.75。此例中T1等于13，p的值是2·p（Y≤13）=0.002 2＜α=0.01，因此拒绝零假设，认为3/4分位数不是80。

2.2.2 分位数的置信区间

数据由独立同分布的随机变量X1，X2，…，Xn的观测组成，X（1）≤X（2）≤…≤X（r）≤…≤X（s）≤…≤X（n）为次序统计量，1≤r≤s≤n。希望找到p*（未知的）分位数，p*是0到1之间的某个指定数。

1.假定条件

（1）X1，X2，…，Xn是随机样本。

（2）Xi的度量尺度至少是次序的。

2.小样本

对于n≤20可以用二项分布表来寻找r与s。在二项分布表中，令p=p*和样本量n，沿着p=p*的量向下找，直到有近似等于α/2的值，此时，1-α近似于给定的置信系数，称这个近似值为α1，相应的y值（远离α1左边）是r-1，加1得到r。然后继续沿着这列向下找，直到有近似等于1-α/2的值，成为1-α2。对应1-α2的y值，记作s-1，加1得到s。这样就得到了α1，α2，r，s。准确置信系数是1-α1-α2，区间估计量是X（r），X（s）之间的区间，而X（r），X（s）可以从数据中得到。那么，

给出了置信区间。如果假设未知的分布函数是连续的，那么，

3.大样本近似

对于n大于20，可以用基于中心极限定理的逼近计算

和

其中，分位数zq从正态分布表找出，1-α是给定的置信系数。一般地，r*，s*不是整数。令r和s是r*，s*向上取整的整数，则（2-31）式给出了近似置信区间，如果位置分布函数是连续的，则近似置信区间由（2-29）式给出。

如上所述，单边的置信区间可以通过只找r或s得到，单边置信区间为

和

如果分布函数是连续的，则为

和

首先考虑分布函数是连续的情况，这种情况比较简单。如果xp*是p*分位数，则有如下关系

其中，X的分布函数与随机样本的分布函数一样。

假设次序统计量X（1）大于某个确定的常数，只要样本中最小的数都大于这个常数，即只要样本中n个值都大于这个常数，X（1）就大于这个常数，选择xp*作为这个常数，可以得到

因为Xi独立，它们有同样的p*分位数xp*。

如果xp*小于X（2），那么X（1）≤xp*＜X（2）中，恰有n-1个观测值大于xp*，或者在xp*＜X（1）＜X（2）中，有n个观测值大于xp*，所以

现在，（2-36）式中的概率由二项分布函数给出，因为每个Xi都有小于等于xp*的概率p*，且Xi是互相独立的，所以由上式可以得到

在二项分布函数F（x）=P（X≤x）=∑i≤x（ni）piqn-i下，则之前的讨论可以做如下推广：

置信系数由下式得出

从而，由（2-38）式和二项分布表可以得到r、s的值，使得

和

则置信系数是1-α1-α21-α。注意，因为假设分布函数是连续的，我们有

因此，可以用二项分布表得到s。

如果X与Xi的分布函数都不是连续的，（2-42）式不成立。由离散随机变量的定义，我们有

和

首先，我们考虑（2-43）式是如何影响（2-38）式，进而影响（2-41）式求r的方法的。因为（2-43）式成立，每个观测值大于xp*的概率小于当X是连续时的值，所以，每个次序统计量大于xp*的倾向，小于X为连续时的情形。即概率P（xp*≤X（r））小于X为连续时（2-38）式给出的值。所以一般情况下，下式成立

如果用上面介绍的方法从二项分布表中找r，那么

现在，我们考虑（2-44）式是怎样通过选择s的值来得到概率1-α2的。因为（2-44）式成立，每个观测值大于等于xp*的概率大于X为连续时的概率，所以观测值大于等于xp*的个数比X为连续时的多，xp*≤X（s）的概率大于X为连续时的情况。因此，（2-38）式可以改为适用于一般情况的式子

所以，如果用先前的方式在二项分布表中找s，我们有

对于任何分布都成立的（2-46）和（2-48）式，可以按如下方式使用

所以，这种方法对于离散随机变量或有结点的有序数据是保守的。因此，求分位数的置信区间的方法，对于有二项分布函数的精确表可用的情形可是可行的。

用大样本方法求r和s是基于标准正态分布近似二项分布的想法，虽然关于怎样由r*，s*求得整数r，s的方法还有不同的争论，但是，此处给出的直接向上取整的方法是个很接近的近似。