1.3 基本统计概念
本书假定读者已经对社会统计学有一定程度的了解,下面将简要回顾社会统计学中的一些基本概念以及它们的性质,对这些内容的理解将有助于我们更好地学习回归理论。
1.3.1 总体与样本
在社会科学定量研究中,我们首先需要建立区分总体(population)和样本(sample)的敏锐意识。本章开篇提到,异质性问题是在个体间普遍存在的,但如果不同的个体在分类上确实满足某种定义,那么我们就将它们组成的总和称为总体。需要注意的是,总体是一个封闭的系统,它具有时间上和空间上的清晰界限。例如,2005年的所有中国人在定义上就是一个界定完好的总体。2005年所有年龄在20~35周岁拥有北京户口的已婚妇女也是一个界定完好的总体。后一个例子可以看作是前一个例子对应总体的子总体。
样本是总体的一个子集。比如,我们关心2005年中国居民的受教育程度和收入之间的关系,那么这项研究的总体就应该是2005年的所有中国居民。但在实际研究过程中,由于研究技术和经费的限制,我们不可能对所有中国居民进行分析,这时我们就需要从总体中按一定方式抽取一部分个体(比如一万人)进行调查,那么这一万人就构成了该总体的一个样本。当然,从理论上讲,我们从同一总体中可以抽取出若干个不同的样本。
由于个体异质性的存在,来自总体的某一个体并不能代表总体中的另一个体,而个体之间也是不能相互比较的。因此,我们不能利用样本对总体中的个体进行任何推断。但是,概括性的总体特征是相对稳定的。总体的这种特征就被称为参数(parameter)。总体参数可以通过总体中的一个样本来进行估计。通过样本计算得到的样本特征叫做样本统计量(sample statistic)。当然,样本提供的信息是有限的。那么,接下来的问题就在于如何依据样本信息来认识所研究的总体。统计推断(statistical inference)在这里扮演着关键角色。所谓统计推断,就是通过样本统计量来推断未知的总体参数。统计学的主要任务就是关注这种被称作“统计推断”的工作。尽管可以通过不同的样本统计量对总体参数进行估计,但是为了方便起见,在本章中,我们主要讨论把原来适用于总体数据的计算式运用到样本数据,所得到的样本统计量被称为“样本模拟估计式”(sample analog estimator)。根据稍后将要讲到的大数定理,随着样本量的增加,样本逐渐趋于总体,而样本统计量(样本模拟估计式)和总体参数之间的差别也会逐渐消失。
1.3.2 随机变量
随机变量(random variable)是指由随机实验结果来决定其取值的变量。它具有两个关键属性:随机性和变异性。随机性也就是“不确定性”。在社会科学研究中,这种“不确定性”主要来自两个方面:一方面是由受访者个体行为或态度本身的不确定性造成的;另一方面来自群体中个体间的异质性,因随机取样而产生。
在实际研究中,作为随机变量的因变量的测量类型决定了研究者应该选择何种统计分析方法。丹尼尔·A.鲍威斯和谢宇(Powers & Xie,2008)在《分类数据分析的统计方法》一书中曾经根据三种标准将因变量划分为四种测量类型,如图1-1所示。
图1-1 随机变量的测量类型
首先,就定量和定性这一划分而言,在定量变量(quantitative variable)中,变量的数字取值具有实质性的意义;然而在定性变量(qualitative variable)中,变量的数字取值本身并没有什么实质意义,只是为了表明类别间的互斥性。例如,在贫困问题研究中,将贫困状况编码为“1=贫困”和“0=非贫困”,这里的数值1和0仅仅是划分研究对象是否处于贫困状态的标识而已,并没有表达贫困程度的含义。换句话说,定性变量的数字取值只是不同类别的代号。因此,定性变量都属于分类变量(categorical variable)。
其次,对定量变量而言,可以进一步将其划分为连续变量(continuous variable)和离散变量(discrete variable)。连续变量也称为定距变量(interval variable)。连续型随机变量的取值可以是某个区间中的任意一个数值。诸如收入和社会经济地位指数这种变量,在其可能的取值范围内,通常都可以将它们当作连续变量对待。一般情况下,离散变量的取值都为整数,并且代表事件发生的次数。比如家庭子女数、某地区在某一年中发生的犯罪案件数以及某中学在某一年份考上重点大学的人数等。定量变量中的离散变量也属于分类变量。
再次,对定性变量而言,可以进一步将其划分为定序变量(ordinal variable)和名义变量(nominal variable)。定序变量利用了变量取值次序先后的信息,但这些数值也仅仅反映着排列次序,对任意两个相邻取值之间的距离却没有过多的要求。举例来讲,我们将人们对于同性恋关系的态度按照以下规则进行编码:1=强烈赞成,2=赞成,3=中立,4=反对,5=强烈反对。这里,1~5的取值就是人们对于同性恋关系所持反对态度由弱到强的排序,但是相邻数值之间的距离并不是相应态度在真实程度上的差异的体现。对于名义变量而言,它的取值分类之间不涉及任何排序信息,取值之间的距离也没有任何实质意义。比如,婚姻状况(1=未婚,2=已婚,3=离婚,4=丧偶)或者性别(1=男性,2=女性)取值之间的差值并不具有任何意义。很多情况下,名义变量和定序变量之间的界限并不很清晰。出于不同的研究目的,同一个变量有时可以作为定序变量处理,有时也可以作为名义变量处理。在第12章当中,我们将进一步讨论该问题。
1.3.3 概率分布
对于一个离散型随机变量X,由于总体异质性的存在,来自同一总体中的各个元素互不相同。令i(i =1, 2, …, N, N表示总体的大小)表示任意一个(第i个)元素,那么随机变量X的概率分布(probability distribution)是指对应每一个元素的值xi都存在一个概率。也就是说,概率分布中对于变量X的每一个取值x,都有一个与之对应的概率P(X=x),且所有互斥事件的概率大于0,这些概率的合计为1。
比如,我们将个体的收入X划分成高(X=1)、中(X=2)、低(X=3)三个类别,各类别收入的概率如下表1-1所示。
表1-1 收入的概率分布
则三者合起来就构成了收入变量X的一个概率分布。离散型随机变量的常见概率分布类型有二点分布、二项分布、超几何分布、泊松分布等。
由于连续型随机变量X的取值xi是连续不间断的,因而,对于其概率分布,我们无法像对离散型随机变量那样一一列出,此时,我们用概率密度函数f(x) (probability density function,简称pdf)来描述其概率分布。概率密度函数具有以下性质:
(1)。这表明连续型随机变量在区间(-∞, ∞)上的概率为1。
(2)。这表明连续型随机变量在区间(a, b]上的概率值等于密度函数在区间(a, b] 上的积分。我们将在下文中对F(·)函数进行解释。
常见的连续型随机变量的概率分布类型有均匀分布、指数分布、正态分布(高斯分布)等。比如,对于标准正态分布,其概率密度函数为:
1.3.4 累积概率分布
一个离散型随机变量X的累积概率分布(cumulative probability distribution)是指对于所有小于等于某一取值xi的累积概率P(X≤xi)。比如,对于上面提到的收入的例子,其累积概率分布如下表1-2所示。
表1-2 收入的累积概率分布
对于离散型随机变量,我们可以很清楚地对各个具体取值的概率进行描述,因此也可以很容易地根据其概率分布得到对应的累积概率分布。但是对于连续型随机变量,其取值是无穷无尽的,所以不可能将其一一列举出来,但我们可以通过对其概率密度函数求积分得到其累积概率分布,即:
图1-2和图1-3分别给出了随机变量X的概率密度函数与其累积概率分布的示意图。
图1-2 概率密度函数图
图1-3 累积概率分布图
1.3.5 随机变量的期望
对于离散型随机变量X,其期望(expectation)[记作E(X)]的数学定义为:
其中:P(xi)表示X=xi的概率。符号E(·)(读作“……的期望”),被称为期望运算符。
期望其实与均值类似,是一个平均数,但两者之间的区别在于:均值是根据某一变量的一系列已知取值求得的,因此,均值往往被特定地用来指称样本的一个特征;而期望代表的是整个总体的平均数、一个未知的总体参数,因此,它只是一个理论值。比如,掷一个质地均匀的硬币,当试验次数无穷大时,正面出现的比例应该是0.5,或者说期望值为0.5。但即使我们试验掷硬币很多次(如10000次),得到正面的比例也不太可能正好是0.5。一般情况下,得到的会是一个接近0.5的值。但此时,期望值仍然是理论上的0.5,而不是实际得到的一个接近0.5的值。
计算连续型随机变量的期望需要用到概率密度函数。如果连续型随机变量X的数学期望存在,且其密度函数为f(x),那么其期望为:
但就社会科学研究而言,在现实生活中几乎没有绝对的连续型随机变量存在。比如收入这个变量,虽然我们把它看作是连续变量,但也不可能存在收入为无穷的情况。所以,在实际应用中,我们有时把它作为离散型随机变量来处理。
比如,假设我们把CHIP88数据看作一个总体,而不是来自总体的一个样本,那么1988年中国城市居民年平均收入(earn)的期望为1871.346元。在这里,收入被视为一个连续型随机变量。
对于一个离散型变量,比如CHIP88数据中的性别这个二分变量(dichotomous variable),我们将其编码为一个虚拟变量(dummy variable),其中,1 =female, 0=male,并计算该变量的期望:
计算出的性别的期望为0.4782。我们通过观察性别这一虚拟变量的分布可以发现,其期望实际上等于女性人数占总人数的比例。希望读者注意这一点,因为正是该特性使得虚拟变量在回归分析中具有特殊的意义。
1.3.6 条件期望
随机变量的条件期望(conditional expectation)是指,当其他随机变量取特定值时某一随机变量的期望。设X、Y是两个离散型随机变量。当X=xi时,Y的期望被称作Y的条件期望,记作:
条件期望具有以下性质:
(1)若C为常数,那么E(C| X)= C;
(2)若k1, k2为常数,则E[(k1Y1+ k2Y2)| X] = k1E(Y1| X)+ k2E(Y2|X);
(3)若X与Y相互独立,则E(Y| X)= E(Y);
(4)E(Y)= E[E(Y| X)](即全期望公式,或迭代期望定律)。
我们仍将CHIP88数据看作一个总体,那么,我们可以计算得到女性年平均收入(earn)的条件期望为E(earn| sex=1)=1702.654元,即:
1.3.7 迭代期望定律
迭代期望定律(law of iterated expectations,简称LIE)表达的是,条件期望的期望等于非条件期望,即:
E(Y)= Ex[E(Y| X)]
注意:符号Ex读作“对X求期望”,这个期望是基于X的边缘分布下随机变量Y的期望。在不致引发混淆的情况下,下标可以省略。我们将在第5章的有关证明中用到这一定律。
1.3.8 随机变量的方差
离散型随机变量X的方差(variance)被定义为:
其中,P(xi)表示X=xi的概率,即P(X=xi)。符号Var(·)(读作“……的方差”)被称为方差运算符。
根据上述定义,我们可以看到随机变量X的方差其实就是其离差平方 [xi-E(X)]2的加权平均,所以也可以用期望的形式将其定义为:
Var(X)= E{[X -E(X)]2}
也可表示为:
Var(X)= E(X2)-[E(X)]2
后一表达式在实际计算过程中经常会用到。
期望是总体重要但未知的特征之一,我们往往根据样本均值对其加以估计。样本均值(记作)是反映样本数据集中趋势的统计量,其计算公式为:
与此相同,总体方差(记作σ2)作为总体的另一特征,也是未知的,也往往需要通过样本方差来估计得到。不过,计算样本方差时我们必须使用修正自由度的样本方差(记作S2)来作为总体方差σ2的无偏估计。其计算公式为:
这里,分母使用n-1而不是n,这是因为计算样本方差需要先估计期望值,这样便损耗了一个自由度。因此,该样本方差也被称为样本的调整方差。
Stata的命令summarize能够直接得到变量的样本标准差(下面会马上对此进行解释),即上面公式中的S。将标准差平方后即可得到样本的调整方差S2。
1.3.9 随机变量的标准差
随机变量X的方差的正平方根被称作X的标准差(standard deviation),记作σ(X)。其数学表达为:
符号σ(X)(读作“……的标准差”)被称为标准差运算符。在统计分析中,我们一般用σ(X)表示总体的标准差,用 S. D.或 S表示样本的标准差。从前面Stata给出的结果我们得知,根据1988年中国城市居民样本得到的年平均收入的样本标准差为1077.32元,我们可以将其视为总体标准差的估计值。
非常容易和标准差混淆的一个概念是标准误(standard error,简称S. E. )。标准差是总体中所有个体与期望之间离差平方的加权平均的正平方根。样本标准差是从总体抽取的某个样本的特征,而标准误则与抽样分布有关,它被用来测量使用统计量来估计参数时的抽样误差。前面已经提到,对于某一总体,我们可以得到若干个规模为n的随机样本,我们可以分别对这些样本用同样的计算得到不同的反映某同一特征(即参数)的统计量(比如期望或方差),这些不同的统计量本身就会构成一个分布。我们称该分布为“抽样分布”。实际上,所谓抽样分布也就是(想象中的)样本统计量的分布。作为一种特殊的分布,抽样分布也有标准差。为了与样本标准差相区别,我们将该标准差称作标准误,用S. E.表示。它表示的是样本统计量所构成的分布的离散程度。根据中心极限定理(Central Limit Theorem),对于大样本,用样本均值来估计期望时,样本标准误和总体标准差之间的关系为:。在下面两个Stata命令中,我们分别计算得到了CHIP88数据中城市居民年平均收入的标准差和标准误。Std. Dev.一列表明,在CHIP88这个样本中,收入分布的标准差为1077.32元。Std. Err.一列给出了平均收入的标准误,它表示如果我们抽取样本量为n=15862的多个随机样本,每一个样本都能得到一个相应的收入均值,这些样本均值将构成一个新的分布,其标准差为8.5539。在统计分析上,标准误越小,测量的可靠性越大;反之,测量就不大可靠。因此,在统计分析中,一般都希望统计量的标准误越小越好。
由此我们看到,统计分析经常会涉及总体分布、样本分布和抽样分布的问题,我们在第2章中还会对这些内容进行详细介绍。在表1-3中,我们以均值和标准差为例,列出这三种分布的关系。
表1-3 总体分布、样本分布和抽样分布之间的关系
1.3.10 标准化随机变量(standardized random variable)
如果一个随机变量X具有期望E(X)和标准差σ(X),那么,新的变量:
被看作随机变量X的标准化形式。其含义在于,以标准差为单位来测量观测值距离平均值的距离。因此,标准分是一个无量纲的纯数。比如,对于CHIP88数据,我们想对年平均收入(earn)进行标准化。首先计算出收入的均值和标准差作为参数估计。
然后生成新的变量earn st。
标准化以后的新变量变成了一个均值为0、方差为1的变量。在多元线性回归中,由于不同自变量的测量单位通常并不一致,因而得到的回归系数通常也不能直接进行相对大小的比较。但如果我们对随机变量进行标准化,消除了变量各自测量单位的影响,得到的标准化回归系数之间就能够进行比较了。标准化经常被用来解决由于变量测量单位不同而导致的结果不可比的问题。
1.3.11 协方差
两个离散型随机变量X和Y的协方差(covariance)[记作Cov(X, Y)]被定义为:
其中:P(xi, yj)表示X=xi且Y=yj的概率,即P(X=xi∩Y=yj)。符号Cov(·)(读作“……的协方差”)被称为协方差运算符。
当X和Y彼此独立时,有Cov(X, Y)= 0。协方差用于测量两个随机变量之间的线性关系。注意,这里强调了“线性”这个词。这意味着,如果两个变量的协方差等于0,它们之间不存在线性关系,但还可能存在其他形式的关系(比如曲线关系)。
与方差的定义类似,我们也可以利用期望的运算式来定义协方差,即:
Cov(X, Y)= E{[X -E(X)][Y -E(Y)]}
或者表示为:
Cov(X, Y)= E(XY)-E(X)E(Y)
其实,方差是协方差的一个特例,也就是说,X的方差就是X与其自身的协方差。
以变量年平均收入earn和变量受教育年限edu两者的协方差为例,可以利用Stata的如下命令计算协方差:
计算结果输出的是一个2 ×2的方差-协方差矩阵。其中,对角线元素为变量的方差,非对角线元素则是对应变量之间的协方差。由此,我们看到,年平均收入与受教育年限的方差分别为1.2 × 106和9.7496,两者的协方差为271.465。
1.3.12 相关系数
相关系数(correlation coefficient)是用来度量变量间相关关系的一类指标的统称。但就参数值而言,常用的是皮尔逊积矩相关系数(简称相关系数),它是对两个连续型随机变量之间线性关系的标准化测量。将随机变量X和Y的相关系数记作ρ(X, Y),可根据下式计算得到:
其中:σ(X)和σ(Y)分别表示X和Y的标准差,Cov(X, Y)表示X和Y的协方差,且始终满足 ρ(X, Y)≤1。因此,我们看到,某两个变量的相关系数在数量上等于它们之间的协方差除以各自标准差之积。用样本数据计算时,相关系数的常用计算公式为:
需要注意的是:根据定义,当X与Y相互独立的时候,Cov(X, Y)=0,从而ρ(X, Y)=0。但是,当ρ(X, Y)=0时,并不能就此认为X与Y独立。两个随机变量相互独立表明两个随机变量的取值之间不存在任何联系,而ρ(X, Y)= 0仅表明X与Y之间不存在线性关系,因此,我们这时称其为X与Y不相关。此外,协方差是有量纲的,但相关系数是没有量纲的,所以相关系数之间可以直接进行比较。
类似于协方差的算法,我们可以在Stata中计算年平均收入earn和受教育年限edu两者的相关系数:
这样我们便得到两个变量的相关系数矩阵。非对角线元素0.0807即为受教育年限与年平均收入两个变量之间的相关系数。