非参数统计:基于R语言案例分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 假设检验

本节将讨论统计推断的另一个重要方面——统计假设检验。出于某种需要,对未知的或不完全明确的总体给出某些假设,用以说明总体可能具备的某种性质,这种假设称为统计假设,如正态分布的假设、总体均值的假设等。这种假设是否成立,还需要考察,这一过程称为假设检验,并最终作出判断,是接受假设还是拒绝假设。

我们将在本节说明假设检验问题是在什么样的情况下提出来的。在总体的分布函数未知或只知其形式而不知其参数的情况下,为了推断总体的某些性质,提出某些关于总体的假设。例如,提出总体服从泊松分布的假设,又如,对于正态总体提出对数学期望的假设。假设检验就是根据样本对所提出的假设作出判断:是接受,还是拒绝。下面是几个包含陈述假设的例子:

(1)女人比男人更易发生机动车交通事故。

(2)上托儿所能够帮助孩子在小学学习中取得更好的成绩。

(3)被告有罪。

(4)A牙膏在防蛀方面比B牙膏更有效。

特殊假设的非统计检验是很容易进行的。我们可以通过观测一批和假设相关的数据,或是不相关的一批数据,或是根本没有数据,然后得出接受或拒绝假设的结论,尽管这个结论是可疑的。但我们所要讨论的假设检验的类型是比较合理的,它称为统计假设检验,检验的过程有着合理的定义。这里给出这种检验的几个简单步骤:

(1)假设是根据总体提出来的,其中包含两种假设。我们把问题中涉及的假设称为原假设或零假设(null hypothesis),一般用H0表示。而把与原假设对立的断言称为备择假设(alternative hypothesis),记为H1。当然,在两个假设中用哪一个作为原假设,哪一个作为备择假设,视具体问题的题设和要求而定。在许多问题中,当总体分布的类型已知时,只对其中一个或几个未知参数作出假设,这类问题通常称为参数假设检验,而在有些问题中,当完全不知道或不确切知道总体的分布时,就需要对总体分布作出某种假设,这类问题通常称为分布假设检验。

我们一般将试验者希望证实的假设作为备择假设,在质量控制中,它是指关于产品或服务质量令人不满意或“失控”的一些陈述。典型的备择假设为“新产品比旧产品要好”,或“这种药对治疗这种病更有效”,有时,备择假设也指研究假设(research hypothesis)。

与备择假设对立的称为零假设或检验假设(test hypothesis),这是在假设检验中需要被检验的假设。上面的例子中和备择假设相对应的零假设分别是“新产品不比旧产品好”,“这种药对治疗这种病不是很有效”。在质量控制中,零假设的陈述是指关于产品或服务质量让人满意的一些陈述。

如果样本数据强有力地与零假设不一致,那么拒绝零假设。如果样本数据和零假设不矛盾,或是没有充足的理由显示数据和零假设有冲突,那么试验者说“不能拒绝”零假设,有时试验者也说“接受零假设”,两者表达的是同一个意思,该叙述不能误解为数据证明零假设是真的。“接受”零假设只是表示不能拒绝零假设。

(2)选择检验统计量(test statistics)。一个好的检验统计量在零假设成立时取一些值,而在零假设不成立时取另一些值。也就是说,一个好的检验统计量在判断数据是否和零假设一致方面是一个敏感的指标。

(3)根据检验统计量的可能取值,构造是否接受零假设的决策法则(decision rule)。

(4)基于从总体中抽取的随机样本,从而得到检验统计量的取值,最后做出是否接受零假设的判断。

例1.9更加精确地描述了假设检验的这个过程。

【例1.9】某机器生产零件,当次品率等于或低于5%时可以认为该机器工作正常,高于5%时,就需要注意机器情况。

零假设为

H 0:该机器正常工作

备择假设为

H 1:需要注意该机器

如果H1是真的,它就是我们要检验的假设。从该机器生产的所有零件中随机抽取10个,根据这组随机样本检验H0。如果拒绝H0,我们需要采取修理措施来使机器正常工作。

假设每个零件是次品的概率均为p,且是否为次品相互独立,则在这个假设模型中,原来的假设H0H1等价于

H 0:p≤0.05

H 1:p>0.05

我们知道如果次品太多,就要拒绝H0。所以令假设统计量T为次品的总个数,那么T服从参数为pn为10的二项分布。查询二项分布表可知,若H0为真(p≤0.05),那么

p=0.05时取等号,且

p=0.05时取等号。

由于当H0为真时拒绝H0的概率很小,即小于等于0.011 5,所以我们决定,若T超过2,则拒绝H0。样本空间中对应T大于2的那些样本点的集合称为临界域(critical region)。决策法则为:若观测结果在临界域中(T超过2),则拒绝H0;否则接受H0。即若假设10个零件的随机样本中有4个次品,那么T=4,拒绝零假设,则我们认为需要注意该机器的工作状况。

【定义1.8】统计检验量是指在假设检验中能够帮助作出判断的统计量。

1.3.1 临界域

一个好的检验统计量应该具备这样的理想性质:它把样本空间的点和实数对应起来,且该样本空间中的样本点是按照区分零假设H0是否为真的能力来排列的。例如,检验统计量给那些最能够帮助试验者决定拒绝H0的样本点以较大的值,给那些帮助试验者决定接受H0的样本点以较小的值,那么检验统计量的值越大,越表明应该拒绝H0,这样当检验统计量的所有值比某一个数都大时,则应拒绝H0。进一步讲,这能够使试验者不论拒绝域多么大还是多么小,都能客观地得出相同的结论。拒绝域对应检验统计量中最大值的检验称为右边检验(right-tailed test)。同样,若次序相反,那么拒绝域对应检验统计量中最小值的检验称为左边检验(left-tailed test)。

这两个都是单边检验(one-tailed test)。例1.9中的检验就是单边的,若拒绝域对应检验统计量中的最大值和最小值,那么该检验为双边检验(two-tailed test),因为拒绝域对应检验统计量可能的两个“边”。

【定义1.9】临界域(critical region)是样本空间中导致拒绝零假设的全体样本点的集合。

有时临界域亦称为拒绝域(rejection region),所以很明显样本空间中不在临界域的全体样本点的集合称为接受域(acceptance region)。

1.3.2 错误类型

在假设检验中有可能做出两种类型的错误判断。

第一类错误(type I error),当原假设H0为真时,却做出拒绝H0的判断,这类错误通常称为弃真错误。也就是说,当H0为真,而我们试验的结果却落在临界域内,拒绝了零假设,即发生了第一类错误。由于样本的随机性,犯这类错误的可能性是不可避免的。若将犯这一类错误的概率记为α,则有P{拒绝H0H0为真}=α

第二类错误(type II error),当原假设H0不成立时,却做出接受H0的决定,这类错误通常称为取伪错误。这类错误同样是不可避免的。若将犯这类错误的概率记为β,则有P{接受H0H0为假}=β

我们希望一个假设检验所做的判断犯这两类错误的概率都很小。事实上,在样本容量n固定的情况下,这一点是办不到的。因为当α减小时,β就增大;反之,当β减小时,α就增大。对于这种情况,我们要如何处理呢?

1.3.3 显著性水平

事实上,因为上面两类错误之间的关系,在处理实际问题时,对于原假设H0,我们都是在经过充分考虑的情况下建立的,或者认为弃真错误会造成严重的后果。例如,原假设是前人工作的结晶,具有稳定性,从经验看,没有条件发生变化,是不会轻易被否定的,如果因犯第一类错误而被否定,往往会造成很大的损失。因此,在H0H1之间,我们主观上往往倾向于保护H0,即H0确实成立时,拒绝H0的概率应是一个很小的正数,也就是将犯弃真错误的概率限制在事先给定的范围内,这类假设检验通常称为显著性假设检验,小正数α称为检验水平或显著性水平。

【定义1.10】显著性水平α是拒绝正确零假设的最大概率。

显著性水平可以这样求得:首先假设零假设H0成立,然后确定一样本点落入临界域的概率,如果H0是简单假设,那么H0成立只产生一个定义在样本空间上的概率函数,则α是把临界域中所有点的概率加到一起的总和。但是通常在假设H0为真时,通过计算检验统计量取某个值的概率来确定α会更容易些,而这个值应导致拒绝H0

1.3.4 零分布

在统计假设检验中,了解当零假设成立时检验统计量的概率分布是非常必要的,这称为检验统计量的零分布(null distribution)。

【定义1.11】检验统计量的零分布是当零假设成立时,检验统计量的概率分布。

在例1.9中,检验统计量T(即10个零件中次品的个数)的零分布是参数p≤0.05的二项分布,这是由于我们假设了独立性和概率p是常数。每个统计假设检验的显著性水平都可以由检验统计量的零分布得到。

如果H0是一复合假设,α是拒绝H0的最大(maximum)概率,这里的最大值是当零假设成立时,所考虑的概率分布可能值的最大值。在这个例题中,H0是复合的,那么对每个不同的p值,拒绝正确零假设的概率为

P(拒绝H0)=PT>2│H0为真)

(1-16)式的概率当p取最大值时,达到最大值。在H0下,p的最大值是0.05,所以由(1-15)式,得显著性水平为

很显然,显著性水平有时称为临界域的大小(size of the critical region),因为,若H0成立,拒绝H0的最大概率是α,则接受H0(即作出正确判决)的最小概率是1

犯第二类错误的概率用β表示。显然在假设检验中我们希望αβ都接近于零。在实际应用中,样本容量可以帮助我们决定αβ会有多小。只有当样本包含了总体所有的信息时,犯错误的可能性才可能被完全消除。

1.3.5 功效

假设H0为假,接受H0的概率是β,那么拒绝H0的概率是1,后面这一概率表示了该检验检测错误零假设的检验功效(power of the test)。

【定义1.12】功效(power)是拒绝错误零假设的概率,记为1

α不同,功效不总是唯一的。如果H1是简单假设,那么由H1成立(等价于H0为假)所导出的概率函数只有一个,即一个拒绝H0的概率,或得到一个落入临界域的样本点。因此这时1唯一。如果H1是复合假设,那么在H1下的每一个概率函数都会有不同的1值,这时,功效取决于多个不同可能的概率函数。

表1-2

前面已经讨论了错误的类型,现在我们转向讨论临界域。尽管我们已经讨论了一些有关临界域的内容,但并没有涉及它是如何选取的。如果检验统计量已经选定,并由它确定了单边或是双边检验,那么临界域的选择只取决于试验者对临界域大小,即显著性水平的偏向。通常,显著性水平α的减小会伴随着β的增加,在假设检验中,我们的两个目标是:若H0为真,那么以最小的可能性拒绝H0;若H0为假,那么以最大的可能性拒绝H0。所以在那些有固定大小的α的点集中,临界域通常是那些1最大值所对应的样本点的集合。习惯上,α通常取0.05或0.01,并且临界域还要根据检验统计量的可能值来确定。

1.3.6 检验的p

如果引入检验的p值(p-value),假设检验的结果会更有意义。

【定义1.13】检验的p值是根据已知观测,零假设被拒绝时的最小显著性水平。

tobs表示检验统计量T的观测值。在右边单边检验中,p值是由T的零分布计算得到的PTtobs)值。在左边单边检验中p值是PTtobs)。

在双边检验中,p值规定为单边检验中两个p值中较小值的2倍。严格来讲,如果T的零分布是离散的,并且拒绝域的右边和左边的概率不相等,这不太可能在两边构造概率相等而精确的显著性水平。所以这和前面的定义是不一致的。但是,为了避免定义模糊,我们在后面还是认为双边的p值是观测值落在零分布单边的概率的2倍。

例1.9中的检验是右边的,T的观测值是4,所以由二项分布表可知p值为PT≥4│p=0.05)=0.001 0。p值有时简写为p,但是在例1.9中这个符号表示次品的概率,所以这里最好用“p值”以免混淆。

在许多发表的研究结果中,统计检验浓缩为只包括检验的名称、假设和p值的报告。若p值小于或等于α,则拒绝零假设,这里α通常取0.05。

【例1.10】为了检验上过和没上过幼儿园的孩子在学习上是否表现不同,选择12个三年级的学生进行研究,其中4个上过幼儿园,要检验的零假设是

H 0:三年级学生在学习上的表现不取决于他们是否上过幼儿园

备择假设是

H 1:学习上的表现和上过幼儿园之间是不独立的

模型假设这12个孩子是所有三年级学生中的一组随机样本,并且根据学习成绩(从好到差)把这些孩子从1到12排序标记。“不独立”是指上过幼儿园的孩子整体比没上过幼儿园的孩子表现好,或整体表现不好。在这个模型下,假设可以重新叙述为

H 0:上过幼儿园的4个孩子的秩是秩1到12的一个随机样本

H 1:上过幼儿园的4个孩子的秩整体比12个孩子中随机抽取4个孩子的秩要大或小

我们选择一检验统计量T,是上过幼儿园的4个孩子的秩和。我们令那些与很大或很小的T值对应的样本点构成拒绝域,所以该检验是双边的。

每一个可能的结果是从1到12中抽取的4个数,且对应着上过幼儿园的4个孩子的秩,所以样本空间中有个点。为了决定临界域包含哪些点,我们将假设H0为真,并且在决定临界域时,看一下α

如果H0为真,4个孩子的秩应当是12种可能中的一组随机样本,因此每四个秩的选择都是等可能性的,这样样本空间中的每个点概率相等,为1/495。这样H0是一个简单假设。因为我们决定用双边检验,所以看一下T较大值和较小值所对应的样本点,T可能的最大值和最小值是42和10,对应的样本点分别是(9,10,11,12)和(1,2,3,4)。T其他的大值和小值所对应的实验结果如表1-3所示:

表1-3

注意:有12个样本点对应于T≤14,有12个样本点对应于T≥38。假如临界域由所有T≤14或T≥38对应的样本点组成,则α

因为在H0下,样本空间中所有的样本点的概率相等。我们的决策法则是:若T的观测值小于等于14或大于等于38,我们拒绝H0,否则我们接受H0

经过观测,上过幼儿园的孩子在12个孩子中,学习成绩的排序分别是2,5,6和9,得到T=22。所以我们接受H0。由正态分布可以得到p值的近似值,左边p值是当零假设成立时,T=22,或更小值的概率。由计算可以得到T的均值和方差,分别为26和34.67(n=4,N=12),所以T的标准差为5.888.正态近似为

它的2倍则是双边检验p值0.496。

这么大的p值表明了当零假设成立时,T的观测值是所期望的,因此,我们没有理由怀疑零假设不正确。

例1.10所示的检验过程叫做Mann-Whitney检验或Wilcoxon检验。我们将在后面的章节就它的多种形式进一步讨论。例1.10中的数据采用的是度量的次序尺度,我们不需要知道每个孩子的学习成绩的具体数值,事实上,这种具体数值所反映的信息通常没有什么价值,因为每个学校,甚至每个老师对这些数值都有不同的解释和标准,而这种排序则有通用的解释。

1.3.7 计算机辅助

绝大多数的统计软件包都能做假设检验。在一些软件包中,使用者指定零假设和备择假设,然后该软件包给出p值。而在其他软件包中,计算机总是给出双边检验的p值,使用者必须决定该值是否是我们要求的,或是必须取其一半的值而得到一单边p值。若p值小于等于使用者给定的显著性水平,那么则拒绝零假设。

很多计算机软件包使用近似方法求p值。大多数情况下这是可行的,但是并不是所有情形都可行,越来越多的计算机软件包在仿照StatXact的例子,例如R语言,它计算精确的p值,或当精确的p值在实际中不能得到时,运用蒙特卡罗模拟法得到近似的p值。

1.3.8 假设检验的性质

假设一旦确定后,对于检验零假设通常有几种假设检验方法。为了从中选择一种方法,我们要仔细考虑这些检验的性质,其中最重要的一个问题是:“这个检验的假设条件适用于我的试验吗?”如果答案是“不适用”,那么我们可能不能用这个检验。但是,在舍弃这个检验前,应该明确检验背后的假设条件。例如,大多数参数检验中所做的一个假设是被检验的随机变量服从正态分布,进一步研究表明,随机变量的分布只要稍微与正态分布有相似之处,检验仍近似有效。所以如果隐含的假设是“近似正态”,且假设条件是“近似成立”的,那么不应该舍弃该假设。但是,该检验的不足之处应有所记录。在模型中,相对于有较多假设条件的检验,我们更喜欢有较少假设条件的检验。

有两个原因说明检验的假设条件不满足时,我们仍然使用该检验是危险的。首先,拒绝零假设不是因为由数据指出的零假设是错误的,而是由于数据表明检验的其中一个假设条件不成立。其次,有时数据明显地表示零假设是错误的,并且模型中一个错误假设也影响着数据,但是在检验中,这两种影响相互抵消了,所以这个检验什么也没揭示就接受了零假设。一般的假设检验不仅对错误的假设敏感,还对模型中错误的假设条件一样灵敏。

基于前面的准则,我们从适合的检验中根据检验的其他性质来选择最好的检验,本节将在后面对有关性质进行具体定义:

(1)检验应是无偏的。

(2)检验应是相合的。

(3)在某种意义上,检验应比其他的检验更有效。

其中,最重要的也是被广泛应用的是有关功效的有效性。

有时,一个检验能满足上面三条标准中的一两条,我们就很满意了。很少有能够同时满足三条标准的检验。本节后面将要讨论检验的无偏性、相合性、有效性和检验的功效。

H1是复合假设,功效随着概率函数的变化而变化。如果H1是按照某些未知参数来陈述的,那么功效通常作为该参数的函数形式给出,这种函数称为功效函数(power function),可用代数形式和图象来表达。功效是当H1成立时拒绝H0的概率,和功效不一样,功效函数通常是对在H0H1下参数的所有值而定义的。这样说来,功效函数比功效给了我们更多的信息,它是当H0成立或不成立时,拒绝H0的概率。

【例1.11】例1.9中的临界域是由10个抽样产品中多于2个次品的所有样本点组成的。

在模型的假设下,样本点落到临界域的概率,同拒绝H0的概率相等,即

这里,p是次品率,拒绝H0的概率是p的函数,根据表1-4可以画出该功效函数的大致图像。

表1-4

如图1-3所示,零假设陈述了p在0到0.05之间。H0成立时,图1-3中曲线的最大值的显著性水平,由(1-15)式计算得0.011 5。功效的取值范围是从0.011 5(p约为0.05)到1.000 0(p等于1.0)。

根据它们的功效函数可以比较这两种检验,这种比较的基础在本节后面定义了相对效率后再作讨论。

图1-3 功效函数

计算机软件包PASS在给定显著性水平、备择假设中参数的取值范围和样本容量后,可以计算检验的功效。在给定功效时,它也可以计算出要求的样本容量。Minitab可以计算一些非参数检验的功效。

1.3.9 无偏检验

显然,我们希望拒绝H0的可能性,在H0不成立时要比H0成立时大。

【定义1.14】无偏检验(unbiased test)是H0不成立时拒绝H0的概率大于等于H0成立时拒绝H0的概率的检验。

因此无偏检验的功效至少和显著性水平一样大。一个检验不是无偏的则称为有偏检验(biased test)。例1.9中描述的检验和例1.11中进一步讨论的检验都是无偏检验,这从图1-3中显然可以看出。

1.3.10 相合检验

检验的另一个优良性质是相合性(consistent)。虽然我们说一个检验是“相合的”或是“不相合的”,其实这里的相合是针对一系列检验而言的,因为它是当样本容量趋于总体容量时所使用的。为方便起见,无论总体容量有限还是无限,我们都将称总体容量“无限”。从技术上讲,因为样本空间和临界域随着样本容量的改变而改变,所以对于每个不同的样本容量,我们都能得到一个不同的检验。因此,随着容量的增加,我们考虑一个检验序列,每一个样本容量都对应一个检验。

【定义1.15】称一检验序列对H1中所有备择假设是相合的,如果对于H1下的每一个可能固定的备择假设,当样本容量趋于无穷时,检验的功效趋于1.0。而序列中每个检验的显著性水平,尽可能地趋于但不超过某一固定的显著性水平值α>0。

1.3.11 相对效率

我们已经定义了统计检验的许多其他性质,相关内容在各种著作中(如Lehmann,1959)都可以找到。我们再讨论一个性质,即效率(efficiency)。效率是一个相对的术语,它被用来比较在相同条件下两种检验的样本容量,假定有两个检验被用来检验特定的假设,而且它们有相同的αβ值,因此关于显著性水平和功效,它们是“可比的”。(注意,两种检验的β值是相等的,通常排除了备择假设是复合假设的情况,因为这时通常β不只有一个值)需要的样本量越小,检验越好,因为小样本量意味着试验中需要较少的花费和精力。较小的样本量的检验被称为比其他检验更有效(more efficient),相对效率(relative efficiency)也更大。

【定义1.16】设T1T2分别表示两种检验,在相同的H0H1下,临界域对应的αβ相等,T1T2的相对效率(或“T1相对于T2的效率”)定义为比值n2/n1,其中n1n2分别是检验T1T2的样本容量。

如果n1小于n2T1相对T2的效率比1大,就和我们预想的一样。假如备择假设是复合3,相对效率可以由备择假设定义的每个概率函数计算得到,这些相对效率值可以用表格或图象来表示。

【例1.12】在相同的H0H1下,两种检验有相等的α=0.01和β=0.14。第一个检验的样本量为75,第二个为50。因此第一个检验不如第二个检验有效。第一个检验对第二个检验的相对效率为50/75=0.67,第二个检验相对第一个检验的效率为75/50=1.5。若已知α=0.05,β=0.30,n1=40,第一个检验相对于第二个检验的效率是0.75,那么可以得到要求的第二个检验的样本容量。

第二个检验方法用30个样本,就能够达到与第一个检验用40个样本得到的一样好的分析结果。

1.3.12 渐近相对效率

相对效率依赖αβ的选择,以及复合假设H1中的特定备择假设,为了让一检验与其他检验进行全面的比较,相对效率显然依赖很多参数。我们更希望对比不依赖αβ,以及当H1是复合假设时,H1中的特定备择假设的选择。有时这种方法可以简要叙述如下:

考虑一检验序列,对于同一固定的α,假如检验序列相合,那么随着样本量n1的增加,β变小。为了不让β变小,针对不同的n1,我们考虑不同的备择假设(在复合假设下),使得在不同的检验中,β取某一常值。因此,随着n1的增加,αβ固定不变,所考虑的备择假设随之变化。

在备择假设下,对于每个n1,考虑计算有相同的αβ值的第二个检验的样本量n2的值。那么对于原检验序列中的每个检验,都有一列相对效率n2/n1值,若随着n1增大,n2/n1趋于一个常数,且不随着αβ值的变化而改变,那么称该常数为第一个检验对第二个检验的渐近相对效率(asymptotic relative efficiency),或更准确些,是第一个检验序列对第二个检验序列而言的,有时也称这样定义的渐近相对效率为Pitman效率(Pitman efficiency),以区分其他的渐近相对效率。

【定义1.17】令n1n2分别是在相同的显著性水平下,有相同功效的两个检验T1T2的样本容量。如果αβ固定,当n1趋于无穷时,极限n2/n1存在,且与αβ独立,那么,n2/n1的极限称为第一个检验对第二个检验的渐近相对效率。

在我们的问题中,为了寻找最大功效的检验,通常要找出具有最大渐近相对效率的检验,因为功效依赖太多因素。因此一个检验相对另一个检验的ARE是很重要的。

通常两个检验的ARE计算起来比较困难,各种成对组合检验的ARE的全面研究本身就可以构成一本书的主题。Noether(1976a)写的书就涵盖了许多关于ARE的重要的研究结果。同时Stuart(1954)与Ruist(1955)对此也有进一步的研究。

所以ARE可以代替相对效率表。但是,如果样本无限,那么如何用ARE呢?对小样本量的精确相对效率的研究表明,在很多实际应用中,ARE可作为一个很好的相对效率的近似。因此,ARE简洁地概括了两个检验的相对效率。

1.3.13 保守检验

在讨论一个检验时,我们有时还要考虑它的保守性(conservative)。

【定义1.18】如果真实的显著性水平比规定的显著性水平低,则可以称这个检验是保守的。

有时,计算一个检验的精确的显著性水平是很困难的,这时要使用近似计算α的一些方法,从而用近似值来作为显著性水平。如果近似的显著性水平比真实的显著性水平(未知)大,则检验是保守的,并且我们知道犯第一类错误的风险没有规定的那么大。