非参数统计:基于R语言案例分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 总体、样本与统计量

我们对所居住的这个世界的大多数认识都来源于样本。比如,我们在某家餐馆吃过一次饭,于是会对这家餐馆的饭菜质量和服务水平有一个看法。我们结识了一些美国人,于是感觉自己差不多对所有美国人都有了一定的认识。在大多数情况下,从样本中获取的认识并不准确,但是,运用科学方法获得的样本却能够提供关于总体比较准确的信息。

科学观点的形成常常源于试验的框架。试验就是每一个步骤都规定得很明确的过程,而在试验之前,每一步的结果都是未知的。例如,检验一种新药的治疗效果的试验由以下几部分组成:选定治疗病人,按照规定的步骤服药,观察该药的治疗效果。检验产品质量的试验则包括两个部分:根据明确规定的步骤抽取和检验产品样本、记录试验结果。我们判断认知是否正确的主要方法也是通过试验验证。下面我们就研究对象——总体、样本进行一些介绍。

1.1.1 总体

总体是指一个统计问题研究对象的全体,它是具有某种(或某些)共同特征的元素的集合。总体是一个集合群体,其中每一个个体都具有已知的在样本内出现的概率。要注意总体的定义是根据所要研究的问题而定的。例如,如果要研究的是北京地区2008年长白猪的日增重,则总体由北京地区2008年所有长白猪的日增重构成。有时总体仅在理论上存在,而并不现实存在。例如,在研究某种药物对某种疾病的治疗效果(有效还是无效)时,我们将会利用一些发病个体进行药效试验,这部分个体可看成是来自一个假想总体的样本,这个假想总体由此药物对所有发病个体的治疗效果构成,它并不现实存在,因为并没有对所有发病个体用药。但是,在理论上,我们可以对所有发病个体用药。

1.1.2 样本

统计分析的目的就是要对总体的特征、不同总体间的差异等做出推断。由于总体往往很大,而且常常是无限的、动态的和假想的,所以不可能收集到总体中每个个体的数据资料,通常的做法是从总体中按一定的方法抽取部分具有代表性的个体,这部分抽取出来的个体称为样本,即我们把总体中某些元素的集合称为样本。要使一个样本含有关于总体的可靠资料,样本中的每个个体必须在随机的情况下抽取。随机抽取意味着总体内的每一个个体具有已知的在样本中出现的概率。这不是抽样者所能随意判断的,而统计分析的基本任务就是要通过对样本的分析来推断总体。

此外根据获取方法的不同,样本可以分不同的类型。比如,方便样本(convenience sample)是一些最容易获得元素的集合,在街上采访的市民或者电话调查均属此类。我们不太可能从方便样本中获得总体参数的精确估计,而概率样本(probability sample)则能够相对精确地描述总体的未知参数,因为概率样本要求总体中每一个元素都有已知的非零概率。本书中所考虑的概率样本是随机样本(random sample),这个概念我们将在本节的后面定义。

1.1.3 目标总体与样本总体

假如一名心理学家想要研究不停地打断一个人的睡眠对其情绪稳定的影响,他所考虑的总体应是当代的所有人。为了进行试验,他在大学校报上刊登广告来招聘所需要的有偿志愿者。他所抽取的样本很难具有代表性,因为这些志愿者都是大学生,来自同一所大学,年龄范围相当狭窄,并且有某种相似的性情促使他们回应报纸上的研究广告,并应聘成为某项人体试验的志愿者。但是,由于很多实际情况的制约,比如研究资金和时间有限,他不得不使用这种类型的样本,否则就得放弃整个试验。因此有两种总体是值得一提的,即研究的目标总体和实际的样本总体。

我们需要从中获取信息的总体称为目标总体(target population),而从中抽样的总体称为样本总体(sample population)。上面的例子中当代人类的全体是目标总体,而来应聘的志愿者是样本总体。所有的试验者都只能基于样本总体来研究问题,而试验的有效性取决于样本总体与目标总体相似的假设,至少在我们所研究的性质上是相似的。

1.1.4 随机样本

本书所讨论的统计方法通常假设样本是随机样本,所以介绍随机样本的有关概念是很重要的。我们假定总体元素的个数是有限的N,这里N可以很大也可以很小。总体中每个元素的重要性相同,且等可能被抽到。容量为nn<N)的一组样本可以这样抽取:将总体中所有元素从1到N进行编号,从中随机抽取n个号码,使得出现任意n个号码的组合等可能,这n个号码对应着总体中的n个元素。这种抽样方法通常是无放回(without replacement)的,所有相同的元素在样本中出现的次数不会多于一次,而对于有放回(with replacement)的抽样,相同的元素可能出现两次或两次以上。

【定义1.1】从有限总体中任意抽取一组容量为n的样本,如果每组样本出现的可能性相等,那么称这样得到的样本为随机样本。

上面定义中的“随机”不是针对样本本身,而是指获取样本的抽样方法,这一点看起来似乎有些奇怪。事实上,我们是通过抽样方法,而不是通过样本本身来判断一组样本到底是不是随机样本。

假如一个有限总体共有N个元素,那么无放回抽样得到的容量为n的样本共有种可能,有放回抽样样本共有Nn种可能。若每组样本出现的可能性相等,则认为这样的抽样方法是随机的,得到的样本是随机样本。

当总体有限时,前面对随机样本的定义在大多数情况下是合适的。但是,假如我们要考察某人在一个晚上做梦的个数,可能会遇到麻烦。在这种情况下,我们认为“随机样本”指某一晚做梦的个数、另一晚做梦的个数,直至比如说七个晚上做梦的个数。即使在理想的情形下,这种抽样方法也不能符合定义1.1中的“等可能性”这一概念。什么叫等可能性?不是针对个体,因为前面我们假设的研究对象只是个体,不是总体的一个代表(尽管这可能是我们想要研究的最终目标)。为了保证等可能性,我们不可能在这个人被期望能够活着的夜晚中,选择一些夜晚来做研究。所以,随机样本至少还需要一个其他的定义。数理统计中随机样本的标准定义如下所述:

【定义1.2】容量为n的随机样本(random sample of size n)是指一组n个独立同分布的随机变量序列X1X2,…,Xn

在定义1.1中,如果抽样方法是有放回时,则定义1.1和定义1.2是相同的,并且当且仅当在这种情形下才是独立的。无放回抽样产生的观测是非独立的,因为某个个体一旦被选中且不放回,就意味着它不可能再被抽取到。然而,如果总体容量N很大,有放回抽样和无放回抽样在实际应用中的差别非常小,就可以忽略这种观测间轻微的不独立性。本书中的定理和公式的推导都假设样本中的观测是独立的。对于有限总体,这些定理在其他假设下的修正是存在的,但不在本书的考虑范围之内。这种修正的效果只要在样本量n小于总体容量10%的情况下就可以被忽略。

1.1.5 多元随机变量

试验者可能会测量或观测到定义1.1中随机样本的每个被选元素,以及定义1.2中的每个随机变量Xi的几个相互关联的特征,在这种情况下,用来描述几个特征的随机变量通常有两个脚标,比如Yij,这里第一个脚标表示所选样本的个体,第二个脚标表示被测量或观测的某个特征。

也就是说,Xi实际表示的是k维随机变量(Yi1Yi2,…,Yik),Xi仍然是独立同分布的,但是Xi中的每个随机变量Yij可以是独立的,也可以是非独立的,可以是同分布,也可以是不同的分布。

例如之前讨论的“梦”的试验,随机变量Xi表示第i个观测夜晚做的梦的个数,假设Xi是独立的且同分布(意思是每个Xi都有相同的分布函数)有一定的合理性。但是如果试验者每晚不仅记录梦的总数,还记录整个睡眠时间,我们分别用Yi1Yi2表示,这样每晚做梦的个数和睡眠时间可能是相关的变量,所以Yi1Yi2很可能不是独立的。但是,每个晚上的睡眠模式彼此是独立的。在数学上,这意味着Yi1Yi2Yj1Yj2的联合概率分布函数可以分解如下:

f(yi1,yi2,yj1,yj2)=f1(yi1,yi2)f2(yj1,yj2)

这里f1f2分别是(Yi1Yi2)和(Yj1Yj2)的联合概率函数。假如连续两晚睡觉模式的联合概率分布不变,即f1f2一样,那么我们可以说(Yi1Yi2)和(Yj1Yj2)有相同的分布。为了更方便地表达这种关系,即随机向量之间要求独立同分布,而随机向量内部的随机变量不必独立同分布,我们可以用Yi1Yi2的联合来表示Xi,这时称Xi为二维随机变量。Xi的值实际上包括两个值,一个是Yi1的值,一个是Yi2的值。这样,前面所述的可以概括为“随机变量{Xi}是独立同分布的”。

类似地,我们还可以考虑每晚有k个测量,它们是Yi1Yi2,…,Yik,用Xi来表示这k个随机变量,那么称Xik维随机变量(k-variate random variable),或是多维随机变量(multivariate random variable)。Xi是独立的就意味着所有{Xi}的联合概率分布可以分解成n个联合概率函数的乘积,并且每个都是Yi1YYi2,…,Yik的联合概率函数。同样地,Xi同分布是指上面提到的联合概率函数是相同的函数。

现在我们有两种随机样本的定义,第一种定义仅适用于有限总体样本并且直接与样本空间联系在一起。如果每一种可能的样本(容量为n)表示成样本空间中的一点,且样本空间中每个点被选为样本的概率相等,那么这种抽样方法是随机的,且抽得的样本是随机样本。上面的定义中,我们仅用到样本空间以及概率函数的概念,但是并没有明确或含蓄地提及随机变量这一概念。

【例1.1】一个心理学家希望选取4名研究对象来进行个体训练和考试。他登出广告,有20个志愿者应聘。他有多种从容量为20的样本总体中抽取一容量为4的样本的方法。他可能会选择最先来应聘的4名志愿者,也可能会选择那些积极主动的志愿者,但这可能就不是随机样本。他也可能严格按照定义1.1来考虑,选择容量为4的样本,即有种可能。抽取样本时,他可以用4 845张同样的纸,每张纸上写4个名字,每张纸上的组合都不同,然后把它们放到篮子里随机地抽取一张,抽取出来的纸片上的4个人则被选中。这样得到的是随机样本,但这种抽样方法是不现实的。

另外一种获得随机样本的方法是,把20个名字写在20张纸上,然后以某种随机方式一个接一个地抽取4张纸,比如可以从装满这些纸的一个帽子中抽取。这种抽样方法同样满足随机样本的定义,这个过程可以通过计算机编程来模拟。

随机样本的第二个定义直接与随机变量有关,而不涉及样本空间。但是,由于随机变量是定义在一个样本空间上的函数,尽管我们没有直接引进样本空间这一概念,但是它隐含在实际背景中。随机变量所有可能取值的全体构成了样本空间,有时,为了解决出现的统计问题,将近似样本空间的点列举出来是必要的。实际上,如果所有可能的测量结果(随机变量假设的值)都是样本空间中的点,那么就不会产生混淆。我们通常认为这些测量结果是数值,但是有时测量的数值很难清楚地表达出来。所以,我们最好讨论各种不同类型的测量。

1.1.6 度量尺度

度量的类型通常被称为度量尺度(scale of measurement),各种不同的出版物都详尽地讨论过,其中包括Stevens(1946)的一篇优秀论文。我们将逐一介绍名义尺度(即“最弱”的度量尺度)、次序尺度、区间尺度,比率尺度(即“最强”的尺度)。

第一种尺度是度量的名义尺度(nominal scale),它是使用数字将性质或元素分成不同种类或范畴的一种方法。分配到观测上的数字只是用作“名字”,以便说明观测所在的种类或范畴,因此叫做“名义尺度”。对掷硬币,我们可以定义随机变量:硬币正面朝上时,记为1,反面朝上时,记为0,这时使用了度量的名义尺度。我们也可以适当地选择7.3和3.9来分别表示正面和反面,我们选择0和1主要是因为方便计算所掷硬币中正面朝上的次数。当把12个研究对象用1到12个数字任意标号时,这时使用了度量的名义尺度,号码的分配则是随机变量的一种形式。当根据颜色将研究对象分类时,种类可以用1、2、3或蓝、黄、红或A、B、C来标记。这些号码只是类别的名字,当然只要种类保持不变,也可以用其他未使用过的号码来标记。

第二种尺度是度量的区间尺度(interval scale)。在一般的度量中,不仅会考虑度量的次序尺度,还会考虑把两个度量区间的大小,即两个度量间差别(从减法的意义上讲)的大小作为相关信息。区间尺度涉及一些单位长度的概念,任意两个度量间的距离都可以用一些单位长度的倍数来表示。用来理解区间尺度这一概念最好的例子就是我们日常生活中温度的表示法。温度的单位(度)定义为温度计中一定体积水银柱的变化量。因此,任意两个温度的差别可以用这个单位或度来衡量。温度的实际数值只是和一个任选为“零度”的点的比较。测量的区间尺度需要一个零点和一个单位长度(只有后者没有前者是不行的),但是哪个点定义为零点,哪种长度定义为单位长度并不重要。温度可以同时由华氏温标和摄氏温标来计量,它们有不同的零度和不同定义的1度或单位。区间度量的法则不会因刻度或位置或两者同时的改变而受到干扰。

第三种尺度是度量的次序尺度(ordinal scale),它用于存在诸如“更小”、“更大”、“相等”这些比较关系的度量中。度量的这些具体数字只是用来从小到大有序地排列元素的一种工具,由于它能够根据度量的相应大小对元素进行排序,所以称为次序尺度。如果其中一些元素彼此相等,我们称为结。当一个人用数字1来表示3个品牌中最喜欢的一个,3表示最不喜欢的一个,2表示剩下的那个品牌,这时,他就是在使用度量的次序尺度,数字只是他表达喜欢程度的一种方式。当然,他可以用任意三个数如16,20,75来代替1,2,3,只要这三个数的相关顺序能够表达出他相应的喜欢程度就行。

第四种尺度是度量的比率尺度(ratio scale)。当次序和区间的大小很重要,而且两度量的比率也很有意义时,我们需要引入度量的比率尺度。如果,一个量是另一个量的“2倍”是合理的话,那么引入度量的比率尺度就是合适的,如度量产量、距离、重量、高度、收入等。实际上,比率尺度和区间尺度的唯一差别是前者要求有绝对零点,而后者的零点可以是任意一点,和区间尺度一样,比率尺度的单位长度也是可以任意定义的。

我们不可能就度量本身来谈哪种度量尺度是合适的,而应该考虑被度量的量以及度量方法,然后再决定赋予度量数值的含义。

关于这四种度量尺度,科学家们没有达成一致的意见。有些科学家喜欢用其他尺度,而有些度量也不能清楚地归类于上面四种尺度的任何一种。这样看来,上面的分类显得把问题过于简单化了,但针对本书目的而言已经足够了。

大多数常用参数统计方法要求度量是区间尺度(或者比这更强的尺度),而大多数非参数统计方法通常采用名义尺度和次序尺度。当然,每种度量尺度都拥有弱度量尺度的所有性质。因此,只需要弱度量的统计方法可能也会用到强度量。

1.1.7 统计量

到目前为止,我们已经讨论了总体、来自总体的样本,以及度量样本所感兴趣的性质的度量尺度。度量尺度涉及随机变量,因为度量样本元素的体系实际上就是一个随机变量。由于统计量(statistic)是随机变量,因此,度量尺度与统计量有关。对于数理统计学家来说,“统计量”和“随机变量”这两个术语是可以互换的。但是,统计量一词的普遍使用表明它不仅仅是一个随机变量。

统计量是描述样本特征的量,如样本平均数、样本方差、样本相关系数等。统计量可以由样本观测值计算得到,因而是样本观测值的函数。一般来说,每一个总体参数都有一个对应的样本统计量。因而由样本推断总体也可以理解为由统计量推断参数。

【定义1.3】一个统计量是将样本空间中的样本点映射到实数上的函数,其中样本空间中的样本点是一些多元随机变量的所有可能值。换句话说,统计量就是几个随机变量的函数。

作为统计量的定义,定义1.3中的每一句话都是充分的,它们清楚地阐述了这个概念。

【例1.2】用X1X2,…,Xn表示n个学生的考试分数,每个Xi都是随机变量,令W等于考试分数的平均值,则

式中,W是一个统计量。若X1=78,X2=86,X3=88,那么3个学生的考试分数的平均值为

统计量W满足定义1.3中的第二句话:它是随机变量X1X2,…,Xn的函数。由于W将随机变量(X1X2,…,Xn)映射到实数,这满足定义1.3中的第一句话。这时,若多元随机变量(X1X2X3)的值为(78,86,88),那么统计量W的值为84。统计学中经常应用这一特殊的统计量,称为“样本均值”,下一节中将进一步讨论它。

1.1.8 顺序统计量与秩

因为非参数统计方法并不假定总体分布。因此,观测值的顺序及其性质则作为研究的对象。对于样本X1X2,…,Xn,如果按照升幂排列,得到

X (1)X(2)<…<X(n)

这就是顺序统计量(order statistic),其中Xi为第i个顺序统计量。对它的性质的研究构成了非参数统计的理论基础之一。本书并不试图在理论证明上作深入的推导,但是了解顺序统计量的基本性质对了解非参数方法的思维方法还是有益处的。

许多初等的统计概念是基于顺序统计量的,比如中位数的定义为

而极差(range)定义为

W=X(n)-X(1)

如果样本是独立随机样本,则中位数和极差常作为位置和尺度的度量。另一个位置估计量为修整均值(trimmed mean),定义为

这里参数j为求均值之前删掉的最大的或最小的一些观测值的数目。有时也用被删除观测值的百分比α作为参数。注意,当修整均值所修整的部分的百分比为0时,就是均值,当α为一半(n为奇数)或者接近一半(n为偶数)时,修整均值为中位数。

如果总体分布函数为Fx),则顺序统计量Xr的分布函数为

如果总体分布密度函数fx)存在,则顺序统计量Xr的密度函数为

顺序统计量XrXs的联合密度函数为

我们从此式可以导出许多常用的顺序统计量的函数的分布。比如极差W=Xn-X(1)的分布函数为

因为本书所采用的方法主要是以秩为基础的,自然要讨论介绍秩的有关分布。如果用Ri来代表独立同分布样本X1X2,…,XnXi的秩,它为小于或等于Xi的样本点个数,即

R=(R1,…,Rn),可以证明:对于(1,…,n)的任意一个排列(i1,…,in),R1,…,Rn的联合分布为

由此可得

类似地,可以得到R1,…,Rn的各种可能的联合分布及有关的矩。对于独立同分布样本来说,秩的分布和总体分布无关。

上面介绍的顺序统计量和秩的一些性质可帮助认识基于秩的统计量的分布性质,以及给定具体总体分布时非参数方法对参数方法的相对效率。此外,我们还将在后面的章节中介绍很多其他有用的统计量,并进一步讨论这些统计量在分析试验结果中的作用。