2.1 分布
2.1.1 总体参数和样本统计量
我们在第1章中已经提到总体和样本的概念。由于社会科学定量研究关心的问题是建立在总体层面上的,而实际的分析却是基于样本数据的,这样就需要建立总体和样本之间的关系,也就是利用样本信息对总体特征进行推断。统计推断的过程涉及两个指标:一个是(总体)参数,一个是(样本)统计量。参数(parameter)是对总体特征的概括性描述,比如总体均值μ、总体标准差σ等,通常用希腊字母表示。统计量(statistic)是对样本特征的概括性描述,比如样本均值、样本标准差S等,通常用英文字母表示。此外,为了进行统计检验,我们也需要构造一些检验统计量,比如Z统计量、F统计量和t统计量等。
由于总体是固定的,因此总体的参数值为常数,并不会随着样本的改变而变化,但它们在研究过程中通常是未知的。样本统计量可以通过样本计算得到,但会随着每次所抽取样本的不同而变化。那么,我们为什么能够根据有不确定性的样本统计量来推断总体参数呢?这就需要了解总体和样本之间的区别与联系。
2.1.2 总体分布、样本分布和抽样分布
总体中所有个体的某种观测值的频数构成了一个总体分布。从总体中抽取一个容量为n的样本,由这n个观测值构成的频数分布,被称为样本分布。
假如我们将CHIP88数据的15862个城市居民看成一个总体,那么从中抽出一个容量为100的样本和一个容量为1000的样本,对比其分布可以发现:随着样本容量的增大,样本分布将越来越接近总体分布,如图2-1、图2-2和图2-3所示。
histogram earn if earn < 6000, bin(50)start(0)percent normal
图2-1 收入的总体分布(n=15862)
注:为了图形比较的方便,我们保留了年收入小于6000元的这部分人。实际上,这部分人占到了整个总体的99.46%。
由于每次抽取样本的不同,样本统计量并不能完全精确地等于总体参数,于是我们需要考虑的问题是:样本统计量是如何变化的?在什么样的基础上,可以根据样本来推断总体?这个问题的答案就是抽样分布。
图2-2 收入的样本分布(n=100)
注:我们将CHIP88数据看作一个总体,利用Stata程序从中随机抽选出一个样本量为100的样本和一个样本量为1000的样本。
图2-3 收入的样本分布(n=1000)
假设我们对总体进行重复抽样,每次用同样的公式计算样本统计量,那么从所有这些样本中得到的统计量就构成了一个分布,该分布被称为抽样分布。它只是一种理论上存在的概率分布,由基于无数不同样本的统计量组成。依靠抽样分布,我们就能够将实际观测到的样本结果与其他所有可能的样本结果进行比较,从而建立起单一样本和总体之间的联系。这就是统计推断的理论依据。
2.1.3 连续变量的常用分布
1.正态分布
正态分布(normal distribution),又称为高斯分布(Gaussian distribution),是一个常被用到的连续型随机变量分布,其分布图呈对称的钟形。如果变量Y遵守正态分布,则Y被称作正态随机变量。其密度函数的数学表达式为:
这个公式比较复杂,不过在实际中并不会经常被用到。只需要记住任何一个正态分布都是由均值μ和方差σ2这样两个参数决定的。因此,正态分布常常被简记作N(μ, σ2)。
正态分布具有如下主要性质:
(1)如果X ~ N(μ, σ2)而Y = aX+b(这里,a和b为常数,且a≠0),那么有Y ~ N(aμ +b, a2σ2)。这意味着,如果对某一正态随机变量进行线性转换,那么转换后的新变量仍然服从正态分布。
(2)如果X和Y相互独立,并且、,那么有。
任何一个服从正态分布的随机变量X都可以通过
变换为标准正态随机变量,这样计算得出的Z值也被称作标准分。z服从均值为0、方差为1的标准正态分布(见图2-4), Z值在0点左边为负、右边为正。
计算出Z值以后,通过查正态分布表就可以知道正态曲线下的各部分面积在整个图形中所占的比例,也就是该范围内的个案数在总个案数中所占的比例。
对于正态分布,需要记住的是:
· 大约有68%的数据位于均值附近± 1个标准差的范围内;
· 大约有95%的数据位于均值附近± 2个标准差的范围内;
· 大约有99.7%的数据位于均值附近± 3个标准差的范围内。
此外,在任何一个正态分布中,当P(X≥xα)= α时,我们将xα称为α上侧分位数。同理,当P(X≤xα)= α时,则将xα称为α下侧分位数。显然,两者之间是互补关系,即α上侧分位数等于(1-α)下侧分位数(参见图2-5)。由于对称关系,如果〔这里,c为任意参数〕,则P(X≥xα)=。在假设检验的时候,还会经常用到正态分布的这些概念。
图2-4 标准正态分布图
图2-5 正态分布分位数图
2.χ2分布
如果X1, X2, …, Xn是n个相互独立的随机变量,且都服从正态分布,即,其中,i=1, 2, …, n,那么将Xi分别标准化并对所得的n个标准分平方求和,即:
则该总和作为一个随机变量,服从自由度为n的χ2分布(读作“卡方分布”),记作Q ~ χ2(n)。对于一个总体,如果其中每个观测值都来自符合i. i. d. (即独立同分布,详细解释见第3章)的正态分布,那么从中随机抽取一个样本x1, x2, …, xn,只需稍作变换就可以发现:
其中,S2为样本方差,σ2为总体方差,n为样本容量。
若Q ~ χ2(n),则E(Q)= n, Var(Q)= 2n。从图2-6中可以直观地看到,χ2分布不是对称的,且χ2分布的值不可能为负;另外,不同的自由度会形成不同的χ2分布。随着自由度的增加,χ2分布在形状上将趋近于正态分布。
图2-6 不同自由度的卡方分布图
3. F分布
如果将两个独立的服从χ2分布的随机变量X和Y分别除以它们各自的自由度并求它们的比值,该比值作为一个随机变量将服从 F分布(F distribution)。需要注意的是,与χ2分布不同,F分布有两个自由度。
采用数学的语言,如果X ~ χ2(m), Y ~ χ2(n),且X, Y相互独立,那么
就服从第一个(分子)自由度为m,第二个(分母)自由度为n的F分布。从图2-7中可以看到,F 分布也是不对称的,且 F 分布的值也不可能为负。
图2-7 自由度为(10, 20)的F分布图
4. t分布
t分布(t distribution)也叫做Student t分布。前面提到,对于一个正态随机变量X,如果用它减去其期望再除以其标准差就可以得到标准正态变量z,即z=(X -μ)/σ。但是当我们用样本标准差S代替未知的总体标准差σ时,得到的结果就不再服从标准正态分布,而是服从t分布,其自由度等于样本量n减去1,即n-1。
采用数学的语言,如果X ~ N(0,1)、Y ~ χ2(n),且X, Y相互独立,那么
就服从自由度为n的t分布。
图2-8 自由度为2的t分布曲线与正态曲线
图2-9 自由度为20的t分布曲线与正态曲线
从图2-8和图2-9可以发现,t分布和正态分布很相似,只是尾部比标准正态分布的尾部包括更大的概率值(或面积)。当n越来越大时,t分布的密度曲线就越来越接近正态分布。
t分布与F分布之间具有密切的关系。基于公式(2-6),这一关系可以表示为:
这意味着,自由度为n的t分布的平方就是第一自由度为1、第二自由度为n的F分布。
2.1.4 自由度
从上面的介绍中我们可以发现,对于随机变量的分布而言,自由度是一个非常重要的特征。自由度(degree of freedom)是通过样本统计量来估计总体参数时必须涉及的一个基本概念。在现代统计学中,自由度的概念最初源自1908年一篇署名为“Student”的文章对“t分布”的讨论。R. A. Fisher在1915年发表的讨论相关系数分布的文章中首次对自由度明确地加以说明,之后这一概念很快便得到了统计学家们的普遍认同(Walker, 1940),今天,这几乎已成为最基础的统计学常识。
简单地讲,自由度指的是计算样本统计量时能自由取值的数值的个数,通常被简写成df。设想我们有一个服从i. i. d.正态分布的随机变量X的总体。从中随机抽取样本数据x1, x2, …, xn,样本规模为n,观测值为xi,均值为a。现在要求我们利用样本方差对总体方差进行估计。为此,我们需要计算离差xi-a。由于均值a来自n个观测值xi,样本中只有n-1个数可以自由取值。换句话说,一旦n-1个数被选取出来,基于均值a,第n个数一定是已知的。所以,在计算离差xi-a的过程中,只有n-1个观测值xi是可以自由取值的,因此其自由度为n-1。这也是需要采用公式而不是来估计总体方差的原因所在。之所以自由度减少了1,是因为存在着均值必须等于a这一约束条件。
按照这一思路,一般来说,丧失的自由度数目也就是需要估计的参数的数目,或者是约束条件的数目。比如,在单一样本t检验中,只需要估计一个参数(即均值),所以自由度为n-1;在比较两样本均值t检验中,观测数为n1+n2 (n1和n2分别为样本1和样本2的观测数),且需要估计两个均值(即每个样本各自的均值),所以自由度为n1+n2-2;在g个组的单因素方差分析中,总观测数为n1+n2+…+ng(同样,n为每一组的观测数),且需要估计g个组的均值,所以总的自由度为(n1+n2+… +ng)-g;在包含p个解释变量的多元回归中,共有n个观测值,且需要估计p+1个参数(与每个解释变量相对应的一个回归系数以及模型截距),所以模型的自由度为n-p-1。请注意,所谓自由度,就是对变异(variability)进行估计时可以自由取值的数值个数。所以,回归模型的自由度为n-p-1,意味着还剩下n-p-1个可自由取值的数值可以用来对模型误差进行估计。
2.1.5 中心极限定理
现在,让我们回到前面2.1.2节的问题。抽样分布虽然建立起了单一样本和总体之间的联系,但它也只是一种理论上存在的概率分布,因为我们实际上不可能也不会进行无数次抽样。那么,如何才能得到抽样分布呢?有关样本均值抽样分布的问题就是通过以下要讲到的中心极限定理(Central Limit Theorem)来解决的,它在总体参数估计和假设检验中都被广泛地应用。
有限总体有放回抽样。假想有容量为N且遵守i. i. d.条件的变量的有限总体(不一定服从正态分布),其均值为μ,标准差为σ;有放回地抽取所有容量为n的随机样本。对每一个样本计算其均值,如果n足够大,则得到的样本均值的抽样分布理论上近似于均值为μ、标准差为σ/ n的正态分布。
无限总体有放回或无放回抽样。假设在i. i. d.条件下,所有容量为n的随机样本均取自均值为μ、标准差为σ的无限总体,并对每一个样本计算均值,则如果n足够大,得到的样本均值的理论分布将近似于均值为μ、标准差为的正态分布。
有限总体无放回抽样。同样,假设在i. i. d.条件下,所有容量为n的随机样本均无放回地取自容量为N 〔N至少是n的两倍(N≥2n)〕、均值为μ、标准差为σ的有限总体,并对每一个样本计算均值,则如果n足够大,样本均值的理论抽样分布近似于均值为μ、标准差为的正态分布。
在上面三种情形中,需要区别样本数量和样本容量。样本数量是无限的,而样本容量是n。如果样本容量足够大(通常以n≥30为标准),就可以使用中心极限定理。选取的样本容量n越大,抽样分布的标准差就越小(一般为的倍数)。虽然总体分布和抽样分布的标准差直接相关,但它们却是完全不同的分布。
事实上,对于一个服从i. i. d.正态分布的总体(均值为μ、标准差为σ),如果重复抽取容量为n的随机样本,样本均值的抽样分布就服从均值为μ、标准差为的正态分布,且与n的大小无关。这一定理将在后面小样本数据的检验中用到。
中心极限定理非常重要,后面我们使用样本数据来估计总体均值,以及使用样本数据来检验关于总体均值的假设时,都将应用这个定理。