4.2 差异量数
集中量数反映的是各变量向中心值聚焦的程度,其代表性如何,还要取决于变量值的变异程度。对于一组数据的全貌来说,差异量数越大,集中量数的代表性就越大。在统计学中,把反映现象总体中各个体的变量值之间差异程度的指标称为离散程度,也称为离中趋势。差异量数也称离中趋势量数,是指描述一组数据离中差异情况和离散程度的量数。差异量数的种类较多,主要包括极差、平均差、四分位差、方差和标准差等绝对差异量数以及变异系数等相对差异量数。
4.2.1 极差
极差(Range)又称全距,是指一组数据的最大值与最小值之差,用𝑅来表示。在统计中,常用极差来刻画一组数据的离散程度,体现一组数据波动的范围。极差越大,离散程度越大,反之,离散程度越小。极差只指明了测定值的最大离散范围,仅仅取决于两个极端值的水平,不能反映其间的变量分布情况,同时易受极端值的影响。
在数据未分组时,极差的公式为
R=Xmax-Xmin
对于分组数据,可以利用最大组的上限值和最小组的下限值近似地求极差。
例4-15 在文件“第4章统计量.xlsx”中的“差异量数”工作表中,有某级5个班250人的政治成绩表及政治成绩频数分布表,如图4-36所示(隐藏了部分行),如何分别按原始成绩和频数分布表计算极差?
解题思路:在Excel中,对于未分组数据,可以根据定义极差的公式进行计算,使用MAX和MIN函数求极差,或使用QUARTILE.INC函数求极差。对于分组数据,则求近似极差。
解题过程:建立统计表,输入公式。
(1)建立统计表。建立一个“两类数据的差异量数”统计表(包含后面将要介绍到的平均差、四分位差、方差、标准差、变异系数),如图4-37所示。
(2)输入公式。
在L3单元格输入公式“=MAX(C3:C252)-MIN(C3:C252)”或“=QUARTILE.INC(C3:C252,4)-QUARTILE.INC(C3:C252,0)”。
图4-36 政治成绩表及频数分布表
图4-37 两类数据的差异量数统计表
在M3单元格输入公式“=100-61”。
结果如图4-38所示。
图4-38 两类数据极差的计算结果
【函数公式解析】
在L3单元格的公式中,MAX函数返回一组值中的最大值。具体语法为:
MAX(number1,[number2],…)
number1,[number2],…:Number1是必需的,后续数字是可选的,是要从中查找最大值的1~255个数字。参数可以是数字或者是包含数字的名称、数组或引用。如果参数是一个数组或引用,则只使用其中的数字,数组或引用中的空白单元格、逻辑值或文本将被忽略。
MIN函数与MAX函数相反,返回一组值中的最小值。
式中,MAX函数返回C3:C252区域的最大值“99”,MIN函数返回C3:C252区域的最小值“61”,最后得数为“99-61=38”。
QUARTILE.INC函数根据0~1之间(包含0和1)的百分点值返回数据集的四分位数。具体语法为:
QUARTILE.INC(array,quart)
array:必需,要求得四分位数值的数组或数字型单元格区域。
quart:必需,指定返回哪一个值。如果quart等于0,则函数QUARTILE.INC返回最小值;如果quart等于1,则函数QUARTILE.INC返回第一个四分位数(第25个百分点值);如果quart等于2,则函数QUARTILE.INC返回中分位数(第50个百分点值);如果quart等于3,则函数QUARTILE.INC返回第三个四分位数(第75个百分点值);如果quart等于4,则函数QUARTILE.INC返回最大值。
式中,“QUARTILE.INC(C3:C252,4)”返回C3:C252区域的最大值“99”,“QUARTILE.INC(C3:C252,0)”返回C3:C252区域的最小值“61”,最后得数为“99-61=38”。
4.2.2 平均差
平均差(Average Deviation或Mean Deviation)是一组数据与其算术平均数的离差绝对值的算术平均数,用AD或MD来表示。平均差是一种平均离差。离差是总体各单位的标志值与算术平均数之差。因离差和为零,离差的平均数不能用离差和除以离差的个数求得,而必须将离差取绝对数来消除负号。传统观点认为,平均差采用了离差的绝对值,不便于运算。但在Excel中,由于有了ABS函数,计算问题就迎刃而解了。
平均差是反映各值与算术平均数之间的平均差异。平均差越大,表明各值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各值与算术平均数的差异程度越小,该算术平均数的代表性就越大。
在数据未分组时,直接使用原始数据计算平均差。数据已分组,就要计算加权平均差。
设一组数据为X1,X2,…,Xn,样本量为n,平均差的计算公式为
如果原始数据被分为k组,各组的组中值分别用X1,X2,…,Xk表示,各组变量值出现的频数分别用f1,f2,…,fk表示,则加权平均差的计算公式为
例4-16 在例4-15的基础上,分别按原始成绩和频数分布表计算平均差。
解题思路:在Excel中,对于未分组数据,可以直接使用AVEDEV函数计算平均差或使用定义的公式进行计算。对于分组数据,则只能使用推演公式计算。
解题过程:由于在例4-15已建立统计表,这里直接在表中输入公式。
在L4单元格输入公式“=AVEDEV(C3:C252)”或“{=AVERAGE(ABS(C3:C252-AVERAGE(C3:C252)))}”。
在M4单元格公式输入数组公式“{=SUM(ABS(F3:F10-SUMPRODUCT(F3:F10,H3:H10)/I10)*H3:H10)/I10}”。
计算结果如图4-39所示。
图4-39 两类数据平均差的计算结果
【函数公式解析】
在L4单元格的公式中,AVEDEV函数返回一组数据点到其算术平均值的绝对偏差的平均值。具体语法为:
AVEDEV(number1,[number2],…)
number1,[number2],…:number1是必需的,后续数字是可选的。要计算其绝对偏差平均值的1~255个参数。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。
在L4单元格的备选公式中,ABS函数返回数字的绝对值。具体语法为:
ABS(number)
number:必需,需要计算其绝对值的实数。
本式内层的AVERAGE函数返回C3:C252区域的平均数,此平均数与C3:C252区域的数字相减,结果作为ABS函数的参数,所有负值都转换成正值,此结果再作为外层AVERAGE函数的参数,最后得到平均差。
由于ABS函数在Excel中的应用,相信平均差在统计分析中的作用会被统计学家重新认识和被挖掘。
在M4单元格的公式中,“SUMPRODUCT(F3:F10,H3:H10)/I10”一段是根据频数分布表计算加权算术平均数的。
4.2.3 四分位差
四分位差(Quartile Deviation)又称内距、四分间距,是上四分位数(位于75%)与下四分位数(位于25%)的差,用Qd表示。四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差主要用于测度顺序数据的离散程度,不受极值的影响,在一定程度弥补了极差的缺陷。
四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第1四分位数)、Q2(第2四分位数,即中位数)、Q3(第3四分位数)。其中,Q3到Q1的距离的差称为四分位差。
如果数据未分组,则在排序后查找相应的四分位数。设一组数据的样本量为n,则Q1位于(n+1)/4,Q3位于3(n+1)/4,四分位差的计算公式为
Qd=Q3-Q3
如果数据已经分组,没有原始数据,就只能根据累积频数分布表,运用插值法,按比例计算四分位差。设原始数据被分为k组,各组变量值出现的频数分别用f1,f2,…,fk表示,样本量为n,则Q1、Q3的计算公式分别为
式中,L为四分位差所在组的下限;Fm-1为至四分位数所在组上一组的累积频数;fm为四分位数所在组的频数;d为组距。
例4-17 在例4-15的基础上,分别按原始成绩和频数分布表计算四分位差。
解题思路:在Excel中,对于未分组数据,可以使用QUARTILE.INC函数求四分位差;对于分组数据,可以利用推演公式计算四分位差。
解题过程:由于在例4-15已建立统计表,这里直接在表中输入公式。
在L5单元格输入公式“=QUARTILE.INC(C3:C252,3)-QUARTILE.INC(C3:C252,1)”。
在M5单元格输入公式“=(86+(188.25-I7)/H8*5)-(76+(62.75-I5)/H6*5)”。
计算结果如图4-40所示。
图4-40 两类数据四分位差的计算结果
【函数公式解析】
在M5单元格的公式中,“62.75”为Q1所在的位置,Q1位于(n+1)/4=(250+1)/4=62.75,所以Q1在76~80这一组,下限为“76”;“188.25”为Q3所在的位置,Q1位于3(n+1)/4=(250+1)/4×3=188.25,所以Q1在86~90这一组,下限为“86”。
4.2.4 方差
方差(Variance)是一组数据与其平均数之差的平方的平均数。总体的方差用来σ2表示,样本的方差用来S2表示。为避免出现离均差总和为零、离均差平方和受样本容量的影响,统计学中将离均差平方求和再平均,以此来描述变量的变异程度。
方差是衡量数据离散程度的重要指标。当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小,方差就较小。因此,方差越大,数据的波动就越大;方差越小,数据的波动就越小。
在数据未分组时,直接使用原始数据计算方差。数据已分组,就要考虑权重因素。
设一组数据为X1,X2,…,Xn,样本量为n,样本方差、总体方差的计算公式分别为:
如果样本数据被分为k组,各组的组中值分别用X1,X2,…,Xk表示,各组变量值出现的频数分别用f1,f2,…,fk表示,则样本方差、总体方差的计算公式分别为:
也可以根据原始数据利用下面这个变形公式快速计算方差:
方差具有可加性,因而可以合成。当然,只有在应用同一种观测手段,测量的是同一个特质,只是样本不同时,才能应用。方差合成的公式为:
式中, 为总方差;ST为总标准差;Si为各小组标准差;Ni为各小组数据个数; 为各小组平均数; 为总平均数。
例4-18 在例4-15的基础上,分别按原始成绩和频数分布表计算方差。
解题思路:在Excel中,对于未分组数据,可以直接使用VAR.S函数计算方差或使用定义的公式计算方差。对于分组数据,可以利用推演公式计算方差。
解题过程:由于在例4-15已建立统计表,这里直接在表中输入公式。
在L6单元格输入公式“=VAR.S(C3:C252)”“=SUM(POWER(C3:C252-AVERAGE(C3:C252),2))/(COUNT(C3:C252)-1)”或“=DEVSQ(C3:C252)/(COUNT(C3:C252)-1)”。
在M6单元格输入公式“=SUMPRODUCT(POWER(F3:F10-SUMPRODUCT(F3:F10,H3:H10)/I10,2),H3:H10)/(I10-1)”。
计算结果如图4-41所示。
图4-41 两类数据方差的计算结果
【函数公式解析】
在L6单元格的公式中,VAR.S函数估算基于样本的方差(忽略样本中的逻辑值和文本)。具体语法为:
VAR.S(number1,[number2],…)
number1:必需,第1个数值参数。
[number2],…:可选,第2~254个数值参数。
如果数据为整个样本总体,则应使用函数VAR.P来计算方差。参数可以是数字或者是包含数字的名称、数组或引用。如果参数是一个数组或引用,则只计算其中的数字。数组或引用中的空白单元格、逻辑值、文本或错误值将被忽略。
在Excel中,VAR.S、VAR.P、VARA、VARPA4个函数分别代表样本方差、总体方差、包含逻辑值运算的样本方差、包含逻辑值运算的总体方差。VAR、VARP函数则是兼容函数,分别对应VAR.S、VAR.P函数,与Excel 2007及早期版本兼容。这6个函数容易混淆,列表予以区分,如表4-1所示。
表4-1 求方差的几个函数的比较
L6单元格的第一个备选公式是根据定义的公式利用原始数据计算方差的。式中,“SUM(POWER(C3:C252-AVERAGE(C3:C252),2))”一段被称为离差平方和,又可以用函数DEVSQ代替,公式就缩短为L6单元格的第二个备选公式。
在M6单元格的公式中,“SUMPRODUCT(F3:F10,H3:H10)/I10”一段是根据频数分布表计算的加权算术平均数。根据原始数据利用变形公式快速计算方差的公式则为“=(SUM(C3:C255^2)*250-SUM(C3:C252)^2)/250^2”,式中的“250”是本例的数据个数。
4.2.5 标准差
标准差(Standard Deviation)也称均方差、标准偏差,是一组数据离均差平方的算术平均数的平方根,也就是方差的算术平方根。总体的标准差用σ表示,样本的标准差用S表示。标准差是反映一组数据离散程度最常用的一种量化形式。一个较大的标准差,说明大部分数值和其平均数之间差异较大;一个较小的标准差,说明这些数值较接近平均数。平均数相同的,标准差未必相同。
在数据未分组时,直接使用原始数据计算方差;数据已分组,就要考虑权重因素。
设一组数据为X1,X2,…,Xn,样本量为n,则样本或总体标准差的计算公式分别为
如果原始数据被分为𝑘组,各组的组中值分别用X1,X2,…,Xk表示,各组变量值出现的频数分别用f1,f2,…,fk表示,则样本或总体标准差的计算公式分别为
标准差的特性为:如果在一个分布中每个原始数据都加上(或减去)一个常数,则标准差不变;如果每一个原始数据都乘上(或除以)一个常数,则标准差也将乘上(或除以)那个常数;用平均数计算的标准差比分布中根据任何其他点计算的标准差都要小。
方差可以合成,标准差是其平方根,当然也能如理合成。标准差合成的公式为
式中,ST为总标准差;Si为各小组标准差;Ni为各小组数据个数; 为各小组平均数; 为总平均数。
例4-19 在例4-15的基础上,分别按原始成绩和频数分布表计算标准差。
解题思路:例4-18介绍了使用定义的公式计算方差,标准差是方差的平方根,也能如法炮制,但这种计算比较麻烦。在Excel中,对于未分组数据,可以使用STDEV.S函数直接计算标准差或使用定义的公式进行计算;对于分组数据,则只能使用推演公式计算。本例直接使用上一例的方差得数来计算。
解题过程:由于例4-15中已建立统计表,这里直接在表中输入公式。
在L7单元格输入公式“=STDEV.S(C3:C252)”。
在M7单元格输入公式“=SQRT(M6)”。
计算结果如图4-42所示。
图4-42 两类数据标准差的计算结果
【函数公式解析】
STDEV.S函数基于样本估算标准偏差(忽略样本中的逻辑值和文本)。具体语法为:
STDEV.S(number1,[number2],…)
number1:必需,第1个数值参数。
number2,…:可选,第2~254个数值参数。
参数可以是数字或者是包含数字的名称、数组或引用。如果参数是一个数组或引用,则只计算其中的数字。数组或引用中的空白单元格、逻辑值、文本或错误值将被忽略。
在Excel中,STDEV、STDEVP、STDEVA、STDEVPA4个函数分别代表样本标准差、总体标准差、包含逻辑值运算的样本标准差、包含逻辑值运算的总体标准差。STDEV、STDEVP函数则是兼容函数,分别对应STDEV.S、STDEV.P函数,与Excel 2007及早期版本兼容。这6个函数容易混淆,列表予以区分,如表4-2所示。
表4-2 求方差的几个函数的比较
SQRT函数返回正的平方根。具体语法为:
SQRT(number)
number:必需,要计算其平方根的数字。如果为负值,则SQRT返回错误值#NUM!。
例4-20 在文件“第4章统计量.xlsx”中的“差异量数”工作表中,有某级5个班的人数、平均数、标准差数据,如图4-43所示,如何合成总标准差?
解题思路:先要计算出总人数和总平均数(加权算术平均数),然后利用标准差合成公式进行计算。
解题过程:在L19单元格输入公式“=SUM(L14:L18)”。
在M19单元格输入公式“=SUMPRODUCT(L14:L18,M14:M18)/L19”。
在N19单元格输入数组公式“{=SQRT((SUM(L14:L18*N14:N18^2)+SUM(L14:L18*(M14:M18-M19)))/L19)}”或“{=SQRT(SUM(L14:L18*N14:N18^2,L14:L18*(M14:M18-M19))/L19)}”。
计算结果如图4-44所示。
图4-43 政治成绩表及频数分布表
图4-44 两类数据标准差的计算结果
【函数公式解析】
在N19单元格的数组公式中,“SUM(L14:L18*N14:N18^2)”一段相当于标准差合成公式的 部分,“SUM(L14:L18*(M14:M18-M19))”一段相当于“ ”部分。这2段可以当成SUM的2个参数,因而可以合并成为“SUM(L14:L18*N14:N18^2,L14:L18*(M14:M18-M19))”,就是备选公式中的一段。
4.2.6 变异系数
变异系数(Coefficient of Variation)也称差异系数,是标准差与平均数的比值,是衡量资料中各观测值变异程度的另一个统计量,用CV来表示。当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。如果两个或多个资料的测量尺度相差太大,或者数据量纲不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点。变异系数没有量纲,这样就可以进行客观比较了。变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。公式为
例4-21 在例4-15的基础上,分别按原始成绩和频数分布表计算变异系数。
解题思路:计算变异系数,必须要已知标准差与平均数。在Excel中,对于未分组数据和分组数据,都要运用前面介绍的方法计算出标准差与平均数,再计算变异比值。
解题过程:由于例4-15中已建立统计表,这里直接在表中输入公式。
在L8单元格输入公式“=STDEV.S(C3:C252)/AVERAGE(C3:C252)”。
在M8单元格输入公式“=M7/(SUMPRODUCT(F3:F10,H3:H10)/SUM(H3:H10))”。
计算结果如图4-45所示。
【函数公式解析】
在M8单元格的公式中,“(SUMPRODUCT(F3:F10,H3:H10)/SUM(H3:H10))”一段为根据频数分布表计算加权算术平均数。
图4-45 两类数据标准差的计算结果
例4-22 在文件“第4章统计量.xlsx”的“差异量数”工作表中,有两个企业1—6月的产值数据,如图4-46所示。如何比较离散程度?
解题思路:两个企业的月产值差异悬殊,不能直接用标准差比较离散程度,而要用变异系数来比较。要先计算出标准差与平均数,再计算比值。
解题过程:建立表格,输入公式。
(1)建立表格。在原始数据表下扩建表格,如图4-47所示。
图4-46 两个企业1—6月的产值
图4-47 两类数据的差异量数统计表
(2)输入公式。
在L29单元格输入公式“=STDEV.S(L23:L28)”。
在L30单元格输入公式“=AVERAGE(L23:L28)”。
在L31单元格输入公式“=L29/L30”。
将L29:L31区域的公式向右填充到M31单元格。
计算结果如图4-48所示。
从表中可以看出,砖厂的标准差为20.41,而鞋厂的标准差为14.29,砖厂显著高于鞋厂。砖厂的平均值为648.33,而鞋厂的平均值为110.33,砖厂远远地高于鞋厂。砖厂的变异系数为0.03,而鞋厂的变异系数为0.13,砖厂低于鞋厂。这表明,砖厂的月产值相对稳定。
图4-48 两类数据标准差的计算结果
4.2.7 分类的差异量数
前面在介绍极差、平均差、四分位差、方差、标准差、变异系数6个差异量数时,所举例子均没有分类计算差异量数。实际上,这批原始数据可能是有类别的。下面介绍分类计算差异量数的技巧。
例4-23 利用例4-15的原始数据,如何按班计算极差、平均差、四分位差、方差、标准差、变异系数?
解题思路1:在Excel中,使用IF函数的条件判断功能结合其他函数,可以分类计算极差、平均差、四分位差、方差、标准差、变异系数。
解题过程:建立统计表,输入公式。
(1)建立统计表。建立一个“未分组数据分类的差异量数”统计表,如图4-49所示。
图4-49 差异量数统计表
(2)输入公式。
在Q3单元格公式输入数组公式“{=MAX(IF($B$3:$B$252=P3,$C$3:$C$252))-MIN(IF($B$3:$B$252=P3,$C$3:$C$252))}”。
在R3单元格输入公式“=MAXIFS($C$3:$C$252,$B$3:$B$252,P3)-MINIFS($C$3:$C$252,$B$3:$B$252,P3)”。
在S3单元格公式输入数组公式“{=SUM(ABS(IFERROR(IF($B$3:$B$252=P3,$C$3:$C$252,"")-AVERAGEIF($B$3:$B$252,P3,$C$3:$C$252),)))/L14}”。
在T3单元格公式输入数组公式“{=QUARTILE.INC(IF($B$3:$B$252=P3,$C$3:$C$252),3)-QUARTILE.INC(IF($B$3:$B$252=P3,$C$3:$C$252),1)}”。
在U3单元格公式输入数组公式“{=VAR.S(IF($B$3:$B$252=P3,$C$3:$C$252))}”。
在V3单元格公式输入数组公式“{=STDEV.S(IF($B$3:$B$252=P3,$C$3:$C$252))}”。
在W3单元格公式输入数组公式“{=V3/AVERAGEIF($B$3:$B$252,P3,$C$3:$C$252)}”。
将Q3:W3区域的公式向下填充到W7单元格。
结果如图4-50所示。
图4-50 计算集中量数的结果
解题思路2:在Excel中,可利用数据透视表强大的统计功能分类统计方差和标准差。
解题过程:插入数据透视表,更改值汇总依据。
(1)插入数据透视表。操作过程为:
➊ 单击“插入”选项卡。
➋ 单击“表格”组中的“数据透视表”按钮。
➌ 在弹出的“创建数据透视表”对话框中,将鼠标放置于“选择一个表或区域”单选按钮右侧的“表/区域”框,使用鼠标拖动选择A2:C252区域。
➍ 在“选择放置数据透视表的位置”组中选择“现有工作表”单选按钮。
➎ 将鼠标放置于“位置”框中,使用鼠标单击P12单元格。
➏ 单击“确定”按钮,随即生成空白数据透视表并弹出“数据透视表字段”任务窗格。
➐ 在“数据透视表字段”任务窗格,将字段节区域中的“班级”字段拖放到“行”区域节,将“政治”字段分2次拖放到“值”区域节。
操作过程及结果如图4-51所示。
图4-51 插入数据透视表
(2)更改值汇总依据。操作过程为:
➊ 右击数据透视表“求和项:政治2”字段的“值”区域中的任意单元格,例如R13单元格。
➋ 在快捷菜单中选择“值汇总依据”级联菜单的“其他项”命令。
➌ 在弹出的“值字段设置”对话框中,已默认选择“值汇总方式”选项卡。
➍ 在“计算类型”列表框中选择“方差”选项。
➎ 单击“确定”按钮。
➏ 重复第1~5步,区别在于,右击的单元格为“求和项:政治”字段的“值”区域中的任意单元格,例如S13单元格;在“值字段设置”对话框的“计算类型”列表框中选择“标准偏差”选项。
操作过程及结果如图4-52所示。
图4-52 更改值汇总依据