2 变量独立检验
2.1 卡方检验
卡方检验源于生物学的变异预测,生物学家依据经验提出豌豆种子的变异比例(概率),然后用实验结果验证假设(H0)。这种方法经英国数学家卡尔·皮尔森发展为卡方检验。
对于二维列联表、多维列联表或定类单变量的一组数据而言,变量独立的卡方检验的H0为:单元格的概率等于一确定的值{πij},这个确定的值等于该单元格的行和列的边际概率之积:
πij=πi+π+j
对于总体样本量为n、单元格观测频次为{nij}的样本,期望频次为{mij=nπij}。当H0为真时,期望值等于观测值{mij=nij}。
假设投掷一枚均匀的硬币,正面朝上的概率是π,背面朝上的概率就是1-π。H0:硬币正面朝上的概率等于背面朝上的概率,即:π=1-π=0.5。正面朝上的期望频次等于背面朝上的期望频次,同为m=nπ=n/2。如果H0为真,则n次投掷就会得到正面朝上和背面朝上各一半的结果。以上是自然科学的独立检验。
具体到社会统计的二维列联表,我们首先应用列联表的边际频次,算出单元格的期望频次,然后用每一单元格的观测频次nij与该单元格的期望频次mij比较。如果变量独立,即H0为真,则nij应该等于或接近于mij;如果{nij-mij}较大,则H0就可能不成立,两个变量会相关。
2.2 皮尔森卡方统计量和卡方分布
检验H0的皮尔森卡方统计量公式为:
当nij=mij时,χ2的值最小,为0。在样本量确定后,nij-mij越大,χ2越大,从而否定H0的可能性越大。
因为χ2 越大,否定H0的概率越大,所以检验H0的p 值是χ2≥的概率。统计量χ2 近似于大样本的卡方分布。至于什么是“大样本”,尚没有明确定义。一种观点认为,80%的{nij}≥5就可以了。p值是观测值χ2的右尾概率。
卡方分布因自由度(df)的不同而形状各异,其均值等于df,标准差等于。df等于备择假设和H0 假设的参数数量之差。随着df增大,卡方分布趋于钟形,但仍然向右偏斜。因为χ2≥0,所以卡方分布只有非负数值(0和正数)。图1-1是df分别等于1、5、10、20的卡方密度分布。
图1-1 df分别等于1、5、10、20的卡方密度分布
资料来源:Agresti,1996。
2.3 似然比卡方统计量
另一种检验H0的统计量是显著性检验的似然比卡方统计量G2。显著性检验决定了在H0为真的情况下,使似然函数最大化的参数值,同时也决定了在H0为真的一般情况下,使似然函数最大化的参数值。检验H0的最大似然比公式为:
Λ的最大值为1。如果在参数不受H0的约束下最大似然的值很大,则最大似然比Λ会大大小于1,可以肯定地否定H0。
似然比检验的统计量等于-2log(Λ),该值是非负数。Λ的值越小,-2log(Λ)的值越大。将统计量取对数的目的在于使统计量趋近卡方抽样分布。对于二维列联表,检验统计量可以简化为:
G2被称为似然比卡方统计量。像皮尔森卡方统计量χ2一样,G2在所有nij=mij时获得最小值0。当G2较大时,否定H0。
虽然χ2和G2是不同的检验统计量,但是它们有很多共同的特性,往往得出的结论也相同。当H0为真并且样本单元格频次大于等于5时,两个统计量具有相同的卡方分布,其值也相近。它们的优缺点在后面讨论。
2.4 变量独立的检验
对于二维列联表,二元变量统计独立的H0有如下形式:
H0:πij=πi+π+j,对于所有的i和j
我们一直用π表示总体的各种概率,这里的πi+和π+j是总体的边际联合概率。卡方检验要使用频次而非概率,所以要把概率转换为频次:mij=nπij=nπi+π+j,mij是假设变量独立的期望频次。
因为随机抽样具有省力、省时和节省费用的优点,所以成为社会调查常用的方法。在总体样本很少的情况下,其调查数据πij、πi+和π+j也很少。我们可以用随机抽样样本的概率替代总体的概率:
pij=pi+p+j
样本的期望频次{mij}为:
这是在零假设即变量相互独立的条件下,单元格的期望频次。
对于I×J列联表的独立性检验,皮尔森和似然比卡方统计量等于:
以上两个统计量的自由度为df=(I-1)(J-1)。根据H0,单元格的期望概率是由边际联合概率{πi+}和{π+j}确定的,而行的边际联合概率之和与列的边际联合概率之和分别为1,因此最后一个边际联合概率分别为πI+=1-(π1++ …+π(I-1)+)和π+J=1-(π+1+ …+π+(J-1))。换言之,只要知道了(I-1)个行边际联合概率和(J-1)个列边际联合概率,就能知道所有的边际联合概率。这意味着,对H0而言,共有(I-1)+(J-1)个参数。对于备择假设,单元格的总数为IJ,因此有IJ个联合概率。因为IJ个联合概率的总和等于1,所以只要知道IJ-1个联合概率就能知道最后一个联合概率。因此,备择假设有IJ-1个参数。自由度df等于备择假设和零假设的参数之差:
(IJ-1)-[(I-1)+(J-1)]=IJ-I-J+1=(I-1)(J-1)
表1-3是男性和女性是否接受高等教育的观测频次和期望频次(括号中的数字)。期望频次的计算方法为:
表1-3 是否接受高等教育和性别交互表的观测频次与期望频次
资料来源:中国社会科学院社会学研究所。
在得到观测频次和期望频次的数值后,应用公式1-1和1-2,可以得到卡方统计量χ2=15.25,G2=15.24,df=1。因为卡方分布的均值等于自由度1,而χ2和G2的数值与均值相差很大,查卡方分布表,得p<0.001,因此否定变量独立的H0,支持是否接受高等教育和性别显著关联。
2.5 分割卡方
卡方统计量具有可加性,也就是说,如果一个卡方的自由度为df=df1,另一个卡方的自由度为df=df2,那么两个卡方之和就是df=df1+df2。同样,df>1的卡方可以分解为自由度较小的分量。例如,df=2的卡方可以分解为df=1的两个独立的卡方。卡方的可分解性质具有重要意义,研究人员可以通过χ2和G2的分量发现各类别之间的关系,把握关联的本质。
我们以2×J列联表为例分解G2。该表的自由度为df=(2-1)(J-1)=J-1,可以分解为J-1个df=1的2×2子表。具体的方法是:先比较前两列,得到分量;然后将前两列合并,与第三列比较,得到第二个分量;再将前三列合并,与第四列比较,得到第三个分量……直到将前J-1列合并,与第J列比较,得到第J-1个分量。每一分量的自由度df=1。
我们应用表1-4的数据来说明一种分割方法。变量家庭收入被分为4个层次(下下、中下、中上、上上),变量受教育程度被分为三个类别(小学、中学、大学)。结果为χ2=312.14,G2=312.25,df=6。查卡方分布表,得p<0.001,说明观测频次和变量独立的期望频次相差很大,证明变量之间的相关性很强,足以否定变量独立的H0。
表1-4 受教育程度和家庭收入的交互分类
资料来源:中国社会科学院社会学研究所的社会调查。
表1-4可以被分割为两个4×2子表。一个4×2子表由家庭收入的4个层次和受教育程度中的中学和大学层次构成,χ2=121.37,G2=121.96,df=3。查卡方分布表,得p<0.001。这表明,无论是中学受教育程度的被调查者,还是大学受教育程度的被调查者,其受教育程度都与家庭收入有关联。
另一个4×2子表的行层次不变,列的中学和大学层次合并为一个层次,另一个层次是小学。χ2=190.78,G2=190.29,df=3。查卡方分布表,得p<0.001。这表明,被调查者从小学升入中学或大学的条件和家庭收入有关。比较两个分表的G2,后者的相关性比前者的相关性更强。总之,不管是城市还是乡村,个人的受教育程度都与家庭收入有关。
总表不能任意分割,必须遵循一定的规则使得每个子表相互独立并且不包含额外的信息。统计学家制定了很多规则,其中一条简单规则是先将列联表的频次分成两种类型。
A类频次:单元格频次(nij)和样本量(n);
B类频次:行和列的边际频次(ni+和n+j)。
然后按照以下规则分割总表。
规则1:原始表格中的频次(A和B)必须有且只有一次机会作为同样的类型出现子表中。例如,原始表格中任何一列的频次必须以列的形式出现且只能出现在一个子表中。
规则2:在一个子表中出现的频次,如边际频次,必须以另一类型的频次再次出现在另一个子表中。
总表的G2等于各分表的G2之和,但皮尔森卡方统计量χ2没有这种性质。但是,对某些研究来说,这一缺憾并不影响我们使用χ2。
2.6 模型分割
在下面讲到对数线性模型和对数概率比模型时,常常应用一个模型和其嵌套模型进行比较,判定一个模型多出的参数是否必要或者变量是否相关。我们以对数线性模型为例试说明之。设两个模型分别为:
比较两个模型,模型2比模型1多一个关联项βXY(ui-)(vj-),除此之外,其他部分都一样。因此,我们说模型1嵌套于模型2。至于选择哪一个模型,可以用两个模型的拟合程度,即似然比卡方统计量G2 之差判定。一般而言,较简单的模型,拟合较差,因而G2 较大,导致G2 [(1)]≥G2[(2)]。令G2[(1)| (2)]表示两者之差:
G2[(1)| (2)]=G2(1)-G2(2)
G2[(1)| (2)]有两个用途:一是检验在假设模型2拟合的条件下,较简单的模型1是否拟合。如果模型1和模型2的G2 之差没有显著性,那么我们自然选择简单模型。二是检验模型2多出的一项βXY(ui-)(vj-)的显著性,从而判定变量之间是否相关。
所谓模型分割就是模型的G2的分割。如前所述,G2的优点是分表的G2总和等于总表的G2,这对于模型分割而言是非常重要的。由于χ2不具备这一优点,因而不能在模型分割中使用。
如果模型1和模型2都具有渐进卡方分布,则G2[(1)| (2)]也具有渐进卡方分布,并且其自由度等于两个模型的自由度之差df=df1-df2。
变量独立的卡方检验像所有显著性检验一样,有其局限性。卡方检验的统计量只是简单地说明关联是否存在,而不能回答关于一组数据的所有问题。为了揭示关联的本质,分割卡方和残差分析是必要的。参数估计值(如概率比)可以指出关联的强度。
χ2和G2卡方检验对数据是有要求的。首先,在单元格的数量IJ一定时,样本量n越大,χ2和G2的抽样分布越接近卡方分布。其次,当n/IJ<5时,G2不准确。当I或J较大时,即使期望频次是1,χ2仍然是不错的统计量。
虽然χ2和G2的期望频次{=ni+n+j/n}是用行和列的边缘和计算得到的,但行和列变量不是定序的。也就是说,行与行或列与列变量之间位置的互换不影响χ2和G2。这暗示我们,两个统计量是将变量作为定类变量处理的,换言之,χ2和G2 适用于定类变量。如果将它们用于定序变量,会损失信息。但是,在比较模型的优劣时G2 是一个很好的指标。