定性数据的统计分析
上QQ阅读APP看书,第一时间看更新

4 定类-定序列联表的检验统计量

检验统计量M2适用于两个变量都是定序变量的情况。如果一个解释变量是定类的且只有两个类别,则仍然可以使用该统计量。如果定类变量的类别超过两个,就要使用另一种统计量。使用这种统计量的步骤是,计算定序应变量在定类解释变量每一行上的均值,然后比较行均值之间的变差。该统计量具有df=I-1的大样本卡方分布。当I=2时,该统计量等同于比较两行均值之差的M2

4.1 2×2列联表的概率比

概率比用于量度变量之间的相关,以2×2列联表为例:

Ω是非负数,当分子大于分母时,Ω>1。概率比之比(或简称概率)等于:

概率又称交叉乘积比或优比。优比可以用来量度列联表中两行里不同两列的概率。以表1-1为例,因为男性和女性的边缘和不相等,所以各列的单元格频次不能互相比较(即各列的女性和男性的数据不能互相比较),必须用各行单元格频次之比n11/n12n21/n22或单元格概率比Ω1和Ω2比较。如果θ>1,则女性接受高等教育的概率大于男性;反之(θ<1),女性接受高等教育的概率小于男性。一般而言,列联表的边际数据分布大多数是不同的,因此将同列的单元格数据进行比较没有意义,只有优比才能正确地反映同列数据的大小。

概率比也可以用条件概率表示:

因此

θ=1时,Ω12,两组条件概率分布(π1(1)π2(1))和(π1(2)π2(2))相等,两个变量相互独立。

当1<θ<∞时,必然出现π1(1)π1(2)π2(2)π2(1),变量正相关。当0≤θ<1时,必然出现π1(1)π1(2)π2(2)π2(1),变量负相关。

在一般情况下,总体的πθ是未知的,我们要用随机样本的频次求θ的估值:

的优点在于,任一行或任一列的频次乘以常数,的值不变。如果行或列的次序颠倒,的值是原值的倒数,方向相反。因此,两个互为倒数且方向相反的表示相同变量的相关程度。

根据算式1-6,当任意单元格频次nij=0时,等于0或∞。因为单元格频次在随机抽样中是一变量,每次随机抽样都会有不同的结果,所以为了避免=0,可用下式替代式1-6:

该式的计算结果只有微小的变化,可以反映变量之间的关系。

4.2 用随机样本的log估计总体的logθ

随机样本的log的标准差为:

总体的logθ的置信区间为:

式中,p是双尾概率。

根据表1-1,样本概率=(471×2078)/(1793×410)=1.33,=0.285。概率表明样本中接受高等教育的男性是女性的1.33倍。=0.285的估计标准误为:

95%置信区间的总体logθ:0.285±1.96(0.075)→(0.140,0.430),相应的总体θ的置信区间为(e0.140e0.430)→(1.150,1.537)。这个区间不包含1,所以性别和是否接受高等教育是相关的。如果区间包含1,则性别和是否接受高等教育就有可能是相互独立的。