§3.3 统计数据的离中趋势
§3.3.1 变异指标——集中趋势值代表性的测定
集中趋势是各变量值向其中心值聚集的程度,在反映统计总体数据一般水平的同时,掩盖了总体各单位标志值的数量差异。因此,在测定了一个数列的集中趋势后,还需要考察数据远离其中心值的程度即离中趋势,计算变异指标。变异指标是反映统计数据差异程度的综合指标,又称标志变动度。
变异指标是衡量集中趋势代表性的尺度。数据分布越分散,变异指标越大,集中趋势的代表性越小;数据分布越集中,变异指标越小,集中趋势的代表性越大。
描述统计数据离散程度的测度值主要有极差、四分位差、平均差、方差和标准差,以及测度相对离散程度的离散系数等。
§3.3.2 极差与四分位差
(1)极差
极差又称为全距,它是指所研究的数据中的最大值与最小值之差。极差表示数据的变动范围,通常以R表示:
对于组距数列,极差也可以近似表示为:
R=最大组上限-最小组下限
用极差反映总体分布的离散程度虽然简便,但它只从两端数值考察,忽略了中间数据的变动情况,不能说明整体的差异程度,尤其是存在极端值情况下,使用极差往往会造成不正确的结论。
(2)四分位差
上四分位数与下四分位数之差,称为四分位差,也称为内距或四分间距,用QD表示,其计算公式为:
四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位差不受极值的影响。此外,由于中位数处于数据的中间位置,因此四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。
四分位差也可以测度定序数据的离散程度,但不适合于分类数据。
根据例3-2的计算结果,计算英语成绩的四分位差为:
QD=QU-QL=86-72.5=3.5(分)
§3.3.3 平均差
平均差是总体中各个标志值对其算术平均数的离差绝对值的算术平均数,用AD表示。由于考虑了数列中各项标志值变动的影响,因而它克服了极差的不足,能够全面反映所研究总体的平均差异程度。
由于各标志值与其算术平均数的离差之和等于零,所以各项离差的平均数也等于零。在计算平均离差时,为了避免正负离差相互抵消,先取离差的绝对值,再求离差绝对值的平均数,即平均差是平均绝对离差的简称。
根据所掌握的资料不同,平均差有简单算术平均式和加权算术平均式两种。
根据表3-2资料计算某班学生英语考试成绩平均差的过程如表3-6所示。
表3-6 某班学生英语考试成绩平均差计算表
计算结果表明,平均来说,该班每个学生的成绩与平均成绩相差7.86分。平均差反映了各个数据对其平均数差异的一般水平,较充分地反映了数据之间的离散程度。但它需要取绝对值,给应用带来一定的局限。所以统计实践中,应用方差和标准差比较多。
§3.3.4 标准差和方差
(1)标准差和方差的意义
标准差又称均方根差,它是总体中各单位标志值与其算术平均数离差平方的平均数的平方根,通常用σ表示。标准差是各项离差的平均数,但在数学处理上,没有采用取绝对值而是采用平方的方法是为了避免正负离差相互抵消,在进一步的计算中这具有数学上的优越性。标准差的平方称为方差,通常用σ2表示。
如果所掌握的资料未经过分组,就可直接采用简单平均公式计算标准差和方差。如果所掌握的是分组资料,则须采用加权平均公式计算标准差和方差。
根据表3-2资料计算某班学生英语考试成绩标准差的过程如表3-7所示。
表3-7 某班学生英语考试成绩表标准差计算表
计算结果表明,平均来说,该班每个学生的成绩与平均成绩相差9.88分。
(2)方差和标准差的数学性质
①若每一个变量值加上一个常数,方差和标准差不变。设a为任意常数,yi=xi+a,则有:
②若每一个变量值均扩大一个常数倍,方差和标准差也同比例变化。设a为任意常数,yi=axi,则有:
③分组条件下,总方差可以分解成组内方差的平均数和组间方差 δ2两部分,即:
组内方差的平均数是各组方差的加权平均数:
组间方差是各组平均数的方差:
④同一数列的标准差一般不小于平均差,即:
σ≥ AD
一般说来,标准差比平均差具有更高的灵敏度。
§3.3.5 离散系数与异众比率
(1)离散系数
上述全距、分位差、平均差和标准差都是反映标志变异绝对指标,与平均数有相同的计量单位,它们在反映变异程度大小时,不仅取决于统计数据的离散程度,还取决于这些统计数据一般水平的高低。当我们比较具有不同水平的数列的变异程度时,一般不能直接用绝对指标,而应该用标志变异的相对指标——离散系数,即标志变异的绝对指标与数列集中趋势值(常常用算术平均数)的比值。其意义是单位平均数上的差异,离散系数小,标志变异小,平均数的代表性就高,反之则反。离散系数的基本形式为:
在统计分析中常用的离散系数是标准差系数,计算公式为:
如某班级学生平均身高172厘米,标准差6厘米;平均体重60千克,标准差4千克。由于身高和体重的算术平均数不等,且计量单位也不同,因此无法对平均身高和平均体重的代表性进行比较,还必须结合其各自的算术平均数进一步计算标准差系数:
计算结果表明平均身高的代表性好于平均体重。
(2)异众比率
对于定性数据,可以计算“异众比率”,衡量众数的代表性。异众比率是指非众数值的次数之和在总次数中所占比重,如果用Vm0表示异众比率,fm和∑ fi分别表示众数所在组的次数和总次数,则异众比率的计算公式为:
异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。
统计数据集中趋势和离中趋势的各种指标适用于所有的定量数据,但是并非都适合定性数据。不同计量层次数据的特征要求用不同的测度值,归纳如表3-8所示。
表3-8 不同计量层次数据的适合测度值