4.1 集中量数
在统计分析中,通过对数据进行排序、频数统计等操作,可以发现,多数情况下,一组数据会呈现出一种钟形分布,即每个数值与中间位置距离越近;出现的次数越多,与中间位置距离越远,出现的次数越少。这种以中间值为中心的集中趋势,是数据规律性的表现。集中量数就是统计学中描述一组数据集中趋势的统计指标,包括算术平均数、加权平均数、修剪平均数、几何平均数、调和平均数、中数、众数等。
4.1.1 算术平均数
算术平均数(Arithmetic Average)可以简称平均数、均数、平均值、均值等,只有在为了与其他几种集中量数相区别时,才全称它为算术平均数。算术平均数是统计学中最基本、最常用的一种平均指标。
算术平均数是一个良好的集中量数,具有反应灵敏、确定严密、简明易解、计算简单、适合进一步演算和受抽样变化的影响较小等优点。但算术平均数易受极端数据的影响,这是因为平均数反应灵敏,每个数据或大或小的变化都会影响最终结果。
根据表现形式的不同,算术平均数分为简单算术平均数、加权算术平均数,其有不同的计算公式。简单算术平均数可以简称为算术平均数,而加权算术平均数不能简称。算术平均数主要适用于数值型数据,不适用于品质数据。
简单算术平均数是加权平均数的一种特殊形式。当各项的权重相等,即数据为原始数据,未被分组时,就要计算简单算术平均数;当各项的权重不相等,即数据已被分组,且进行了频数统计时,就要计算加权算术平均数。由于归组效应,加权平均数可能与真正的平均数有所出入。因此,当有原始数据时,尽量计算简单算术平均数。
设一组数据为X1,X2,…,Xn,样本量为n,则简单算术平均数的计算公式为
如果原始数据被分为𝑘组,各组的组中值分别用X1,X2,…,Xk表示,各组变量值出现的频数分别用f1,f2,…,fk表示,则加权算术平均数的计算公式为
例4-1 在文件“第4章统计量.xlsx”中的“集中量数”工作表中,“政治成绩表”记录了某级5个班250人的政治成绩,“政治成绩频数分布表”则对该科成绩进行了统计,如图4-3所示(隐藏了部分行)。如何分别按原始成绩和频数分布表计算简单算术平均数、加权算术平均数?
解题思路:在Excel中,可以直接使用AVERAGE函数计算简单算术平均数或根据定义的公式计算简单算术平均数。根据定义的公式使用SUM、SUMPRODUCT等函数计算加权平均数。
解题过程:建立统计表,输入公式。
(1)建立统计表。建立一个可以对未分组数据和分组数据计算算术平均数的统计表“两类数据的集中量数”(包含后面将要介绍到的中位数、众数),输入有关数据,如图4-4所示。
图4-3 政治成绩及频数分布表
图4-4 两类数据的集中量数表
(2)输入公式。
在L3单元格输入公式“=AVERAGE(C3:C252)”或“=SUM(C3:C252)/COUNT(C3:C252)”。
在M3单元格输入公式“=SUMPRODUCT(F3:F10,H3:H10)/ I10”或“{=SUM(F3:F10*H3:H10)/I10}”。
计算结果如图4-5所示。
图4-5 算术平均数的计算结果
【函数公式解析】
在L3单元格的公式中,AVERAGE函数返回参数的算术平均值。具体语法为:
AVERAGE(number1,[number2],…)
number1:必需,要计算平均值的第一个数字、单元格引用或单元格区域。
number2,…:可选,要计算平均值的其他数字、单元格引用或单元格区域,最多可包含255个。如果区域或单元格引用参数包含文本、逻辑值或空单元格,则这些值将被忽略;但包含零值的单元格将被计算在内。如果参数为错误值或为不能转换为数字的文本,将会导致错误。
L3单元格的备选公式是根据定义简单算术平均数的公式进行计算的。式中,SUM函数是求和函数,“SUM(C3:C252)”得到数据集之和,为“20675”。COUNT为计数函数,“COUNT(C3:C252)”得到数据集的个数,为“250”。两数再相除,得到算术平均数,为“82.7”。
在M3单元格的公式中,SUMPRODUCT函数在给定的几组数组中,将数组间对应的元素相乘,并返回乘积之和。具体语法为:
SUMPRODUCT(array1,[array2],[array3],…)
array1:必需,需要进行相乘并求和的第一个数组参数。
[array2],[array3],…:可选,2~255个数组参数,其相应元素需要进行相乘并求和。
数组参数必须具有相同的维数,否则,函数SUMPRODUCT将返回#VALUE!错误值#REF!。函数SUMPRODUCT将非数值型的数组元素作为0处理。
该公式及备选公式都是根据加权算术平均数定义的公式进行计算的。“SUMPRODUCT(F3:F10,H3:H10)”与“SUM(F3:F10*H3:H10)”均为根据各组中值与人数相乘计算数据集的和。
注意
对于正数a、b,
A=(a+b)/2,叫作a、b的算术平均数,
G= ,叫作a、b的几何平均数,
S= ,叫作a、b的平方平均数,
H=2/(1/a+1/b)=2ab/(a+b),叫作调和平均数。
在数学上,使用代数方法和几何方法很容易证明四项平均数之间的不等关系:
H≤G≤A≤S(调和平均数≤几何平均数≤算术平均数≤平方平均数)
其中G≤A(几何平均数≤算术平均数)是基本的。
4.1.2 修剪平均数
在一些比赛、评价中可能出现极端数据,而算术平均数容易受极端数据的影响,此时计算算术平均数可能会导致结果不公平,需要将这一组数据去除一定百分比(如5%)的最大值和最小值数据后,再计算算术平均数。也就是先对一组数据排序,然后按一定个数或比例掐头去尾,最后计算剩余数据的算术平均数,此时的平均数就是修剪平均数,也称截尾平均数。
例4-2 在文件“第4章统计量.xlsx”中的“修剪平均数”工作表中,“测评分数表”记录了20个评委对3名参赛者的评价分数,如图4-6所示。如何按10%的比例去除高分和低分后计算算术平均数?
图4-6 测评分数表
解题思路:按照题意,本题是要计算修剪平均数。在Excel中,可以直接使用TRIMMEAN函数计算修剪平均数或根据定义的公式计算修剪平均数。
解题过程:在V3单元格输入公式“=TRIMMEAN(B3:U3,0.1)”或“=(SUM(B3:U3)-LARGE(B3:U3,1)-SMALL(B3:U3,1))/(COUNT(B3:U3)-2)”。
将V3单元格的公式向下填充到V5单元格,结果如图4-7所示。
图4-7 修剪平均数结果
【函数公式解析】
式中,TRIMMEAN函数返回数据集的内部平均值,即按一定百分比排除数据集顶部和底部的尾数数据点后得到的平均值。具体语法为:
TRIMMEAN(array,percent)
array:必需,需要进行整理并求平均值的数组或数值区域。
percent(百分比):必需,从一组数据中排除数据点的分数。函数TRIMMEAN将排除的数据点数向下舍入到最接近的2的倍数。例如,如果percent=0.2,从20点(20×0.2)的数据集中剪裁4点:数据集顶部的2点和底部的2点。如果percent=0.1,30个数据点的10%等于3个数据点。为了对称,TRIMMEAN排除数据集顶部和底部的单个值。如果percent<0或percent>1,则TRIMMEAN返回错误值#NUM!。
备选公式是根据定义修剪平均数的公式进行计算的。式中,LARGE函数返回数据集中第k个最大值。具体语法为:
LARGE(array,k)
array:必需。需要确定第k个最大值的数组或数据区域。
k:必需。返回值在数组或数据单元格区域中的位置(从大到小排)。
SMALL函数则与LARGE相反,返回数据集中的第k个最小值。
本式,“SUM(B3:U3)”得到数据集之和,为“1783”;“LARGE(B3:U3,1)”得到数据集之第一最大值,为“99”;“SMALL(B3:U3,1)”得到数据集之第一最小值,为“80”;再计算“1783-99-80=1604”,作为被除数。“(COUNT(B3:U3)-2)”为数据集的总个数减去“2”(最大值与最小值),得到“18”,作为除数。两数相除,最后得到“89.11”。
4.1.3 几何平均数
几何平均数(Geometric Mean)是指𝑛个观察值连乘积的𝑛次方根。当一组数据中存在极端数值,或者分布呈偏态时,算术平均数不能很好地反映数据的典型情况,此时宜用几何平均数或其他集中量数(如中位数、众数)来反映数据的典型情况。当一组数据中任何两个相邻数据之比接近于常数,即数据按一定的比例关系变化,此时应计算几何平均数,以便正确反映平均利率、平均发展速度、平均提高率、平均合格率等。
几何平均数的特点是:受极端值的影响较算术平均数小;如果变量值有负值,计算出的几何平均数就会成为负数或虚数;仅适用于具有等比或近似等比关系的数据;几何平均数的对数是各变量值对数的算术平均数。
根据资料的条件不同,几何平均数有加权和不加权之分,分为简单几何平均数和加权几何平均数。简单几何平均数可以简称为几何平均数。当各项的权重相等时,要计算简单几何平均数;当各项的权重不相等时,要计算加权几何平均数。
设一组数据为X1,X2,…,Xn,样本量为n,则简单几何平均数的计算公式为
如果一组数据为X1,X2,…,Xn,样本量为𝑛,各变量值出现的频数分别用f1,f2,…,fn来表示,则加权几何平均数的计算公式为
下面用4个例子介绍在Excel中如何计算几何平均数。
例4-3 在文件“第4章统计量.xlsx”中的“几何平均数”工作表中,“心理感觉的物理测量表”记录了10名被试心理感觉的物理刺激量数据,如图4-8所示,如何计算平均数?
解题思路:本题10名被试的物理刺激量数据差距较大,应计算几何平均数。在Excel中,可以直接使用GEOMEAN函数或使用定义的公式计算几何平均数。
解题过程:在B13单元格输入公式“=GEOMEAN(B3:B12)”或“=PRODUCT(B3:B12)^(1/COUNT(B3:B12))”。
结果如图4-9所示。
图4-8 心理感觉的物理测量表
图4-9 物理刺激量的几何平均数
【函数公式解析】
GEOMEAN函数返回一组正数数据或正数数据区域的几何平均值。具体语法为:
GEOMEAN(number1,[number2],…)
number1:必需,后续数字是可选的。用于计算平均值的1~255个参数。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。
备选公式是根据定义几何平均数的公式进行计算。PRODUCT函数返回所有数字的乘积。具体语法为:
PRODUCT(number1,[number2],…)
number1:必需。要相乘的第一个数字或范围。
[number2],…:可选。要相乘的其他数字或单元格区域,最多可以使用255个参数。
式中,“PRODUCT(B3:B12)”计算B3:B12区域数字的连乘,结果为“2091955224.1536”,“COUNT(B3:B12)”计算B3:B12区域数字的个数,结果为“10”,然后对“2091955224.1536”开10次方。“^(1/10)”表示开10次方。
例4-4 某生第1~5周记忆的单词数分别为20、23、26、30、34个,试计算其学习进步率。
解题思路:学习进步率是一种比率,所以要得到相邻两次所记单词数的比率,再计算几何平均数。可以使用GEOMEAN函数、简化的公式或POWER函数计算几何平均数。
解题过程:建立数据表,输入公式。
(1)建立数据表。在文件“第4章统计量.xlsx”中的“几何平均数”工作表中,建立“学习进步率表”,输入有关数据,如图4-10所示。
(2)输入公式。
在C19单元格输入公式“=B19/B18”。
将C19单元格的公式向下填充到C22单元格。
在C23单元格输入公式“=GEOMEAN(C18:C22)”。
在C24单元格输入公式“=(B22/B18)^(1/(A22-A18))”。
C25单元格输入公式“=POWER(B22/B18,1/(A22-A18))”。
计算结果如图4-11所示。
图4-10 学习进步率表
图4-11 学习进步率的计算结果
【函数公式解析】
简化公式的原理为,先设X1为基数,分别用后一次的结果除以前一次的结果求出数据变化的比率,然后用比率数作为Xi,代入计算几何平均数的公式,开n-1次方,所求结果就是平均增长的比率数。公式为
POWER函数返回数字乘幂的结果。具体语法为:
POWER(number,power)
number:必需,基数,可为任意实数。
power:必需,基数乘幂运算的指数。可以使用“^”代替POWER,以表示基数乘幂运算的幂,例如5^2。幂为分数或小数,就是开方。例如5^(1/2),表示对“5”开“2”次方。
例4-5 某校1950年教育经费为10万元,1985年教育经费为120万元。请问:教育经费的年增长率是多少?如果一直按此比率增加,到2017年该校的教育经费是多少?
解题思路:此例只有前后两次的数据,可以利用几何平均数的简式进行计算。
解题过程:建立数据表,输入公式。
(1)建立数据表。在文件“第4章统计量.xlsx”中的“几何平均数”工作表中,建立一个“教育经费增长情况表”,输入有关数据,如图4-12所示。
(2)输入公式。
在B32单元格输入公式“=B31*((B33+1)^(A32-A31))”或“=B31*POWER(B33+1,A32-A31)”。
在B33单元格输入公式“=(B31/B30)^(1/(A31-A30))-1”或“=POWER(B31/B30,1/(A31-A30))-1”,计算结果如图4-13所示。
例4-6 假定某地储蓄年利率(按复利计算)为:5%持续1.5年,3%持续2.5年,2.2%持续1年。请问:此5年内该地平均储蓄年利率是多少?
解题思路:此例每个利率持续的年数不同,因而平均储蓄年利率为加权几何平均数。
解题过程:建立数据表,输入公式。
(1)建立数据表。在文件“第4章统计量.xlsx”中的“几何平均数”工作表中,建立一个“某地储蓄年利率表”,输入有关数据,如图4-14所示。
图4-12 教育经费增长情况表
图4-13 教育经费增长的计算结果
(2)输入公式。
在G6单元格中输入公式“=SUM(G3:G5)”。
在F6单元格中输入公式“{=POWER(PRODUCT(F3:F5^G3:G5),1/G6)}”。
计算结果如图4-15所示。
图4-14 某地储蓄年利率表
图4-15 教育经费增长的计算结果
【函数公式解析】
在F6单元格的公式中,“F3:F5^G3:G5”表示F3:F5区域与G3:G5区域对应的单元格进行乘幂运算,得到“{0.0111803398874989;0.000155884572681199;0.022}”。再利用PRODUCT函数进行连乘,得到“3.83425351274533E-08”,最后利用POWER函数开方。
4.1.4 调和平均数
调和平均数(Harmonic Average)又称倒数平均数,是变量倒数的算术平均数的倒数。这是一类较难理解的平均数,常常涉及如何确定“单位1”的问题。调和平均数问题实质是速度相遇问题、速度路程问题、分数工程问题。
先看一个速度相遇问题。一艘轮船从A码头顺流而下到C码头,然后原路返回。顺流去时,速度为30km/h;逆流返回时,速度为20km/h。求往返平均速度。本例容易错成(30+20)÷2=25(km/h),错在把往返用时等同了,而往返用时是不同的。正确结果应该是30和20的调和平均数:2/(1/20+1/30)=2×20×30/(20+30)=24(km/h)。算理是这样的:去时每千米耗时 h,返回时每千米耗时 h,因此在每千米的路上,往返一次共行驶2km,耗时(1/20+1/30)h,也就是每小时行驶2/(1/20+1/30)km。也可以根据2×20×30/(20+30)这样解释:假设A与C之间的航程是20×30km,往返一次的总路程和总时间分别为2×20×30km和(20+30)h。如果将这个问题稍稍复杂化一点,问题变成:在这条航道上是否存在一点B,顺流而下到B和逆流而上到B用的时间相同?答案是肯定的,也是显然的。可以假设,顺流而下的船出发,同时有一艘同样的船逆流而上,两船相遇的地点就是所求的B点。这个点很容易确定,AB∶BC=3∶2。
再看一个巧用轮胎的问题。自行车的前轮胎和后轮胎是相同的,可以交换。但是同样的轮胎在前轮和后轮上使用的时间是不同的。上在前轮上可以行驶500km,上在后轮上只能行驶300km。因此,适当的时候交换前轮胎和后轮胎可以让前轮胎和后轮胎同时报废。问题是,行驶多少km交换合适?这样一对轮胎最多能同时行驶多少千米?可以这样理解,前轮每千米磨损1/500,后轮每千米磨损1/300。当磨损掉前、后轮总数的一半,即磨损掉1条轮胎时,就应该交换前后轮。此时行驶了1÷(1/300+1/500)=187.5(千米)。交换后还可以行驶187.5km,一共行驶了375km。
调和平均数有加权和不加权之分,分为简单调和平均数和加权调和平均数。简单调和平均数可以简称为调和平均数。当各项的权重相等时,要计算简单调和平均数;当各项的权重不相等时,要计算加权调和平均数。
简单调和平均数是算术平均数的变形。设一组数据为X1,X2,…,Xn,样本量为n,则简单调和平均数的计算公式为
当只有两个变量时,简单调和平均数的计算公式为
加权调和平均数是加权算术平均数的变形。如果一组数据为X1,X2,…,Xn,各变量值出现的频数分别用f1,f2,…,fn来表示,则加权调和平均数的计算公式为
下面用5个例子介绍在Excel中如何计算调和平均数。
例4-7 4名学生在1h内分别解题3、4、6、8道。问:平均解题速度是多少?
解题思路:本题应该计算调和平均数。本题已知单位时间的工作量,在Excel中,可以直接使用HARMEAN函数计算调和平均数或使用定义的公式计算调和平均数。
解题过程:建立数据表,输入公式。
(1)建立数据表。在文件“第4章统计量.xlsx”中的“调和平均数”工作表中,建立一个“学生解题情况表”,输入有关数据,如图4-16所示。
(2)输入公式。在F3单元格输入公式“=HARMEAN(B3:E3)”或“{=COUNT(B3:E3)/(SUM(1/B3:E3))}”。
结果如图4-17所示。
图4-16 4名学生的解题速度
图4-17 4名学生的平均解题速度
【函数公式解析】
HARMEAN函数返回一组数据的调和平均数(调和平均数与倒数的算术平均数互为倒数)。具体语法为:
HARMEAN(number1,[number2],…)
number1,[number2],…:number1是必需的,后续数字是可选的。用于计算平均值的1~255个参数。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。参数可以是数字或者是包含数字的名称、数组或引用。
备选公式是根据定义调和平均数的公式进行计算的。COUNT函数计算B3:E3区域数据的个数,得到“4”,SUM函数计算B3:E3区域数据倒数的和,得到“0.875”。两数相除,得到“4.57142857142857”。
例4-8 3名学生在2h内分别解题24、20、16道。问:平均解题速度是多少?
解题思路:本题仍然应该计算调和平均数。本题每人的时间相同而工作量不同,单位时间的工作量未知,要事先计算出单位时间的工作量,再使用HARMEAN函数计算调和平均数。
解题过程:建立数据表,输入公式。
(1)建立数据表。在文件“第4章统计量.xlsx”中的“调和平均数”工作表中,建立一个“工作量不同而时间相同时求调和平均数”表,输入有关数据,如图4-18所示。
(2)输入公式。在B11单元格输入公式“=B9/B10”。
将B11单元格的公式向右填充到D9单元格。
在F11单元格输入公式“=HARMEAN(B11:D11)”。
结果如图4-19所示。
图4-18 3名学生用时数相等时的试题量
图4-19 3名学生的平均解题速度
例4-9 3名学生解答10道题的用时分别为0.8、1、1.2h。问:平均解题速度是多少?
解题思路:本题仍然应该计算调和平均数。本题每人的工作量相同而时间不同,单位时间的工作量未知,要事先计算出单位时间的工作量,再使用HARMEAN函数计算调和平均数。还可以使用速度公式 求解。
解题过程:建立数据表,输入公式。
(1)建立数据表。在文件“第4章统计量.xlsx”中的“调和平均数”工作表中,建立一个数据表,输入有关数据,如图4-20所示。
(2)输入公式。
在E15单元格输入公式“=SUM(B15:D15)”。
将E15单元格的公式向下填充到E16单元格。
在B17单元格输入公式“=B15/B16”。
将B17单元格的公式向右填充到E17单元格。
在F17单元格输入公式“=HARMEAN(B17:D17)”。
结果如图4-21所示。
图4-20 3名学生试题量相等时的用时数
图4-21 3名学生的平均解题速度
注意
本题E17单元格的得数与F17单元格的调和平均数相等,E17单元格的公式使用了速度概念的公式平均速度= 。如果计算B17:D17区域的算术平均数,则是错误的算法。如果直接使用原始数据,E17单元格的公式可为数组公式“{=SUM(B15:D15)/SUM(B16:D16)}”。
如果直接使用原始数据,F17单元格的公式也可以改为数组公式“{=HARMEAN(B15:D15/B16:D16)}”。
例4-10 土豆每元1斤,地瓜每元1.5斤,白菜每元2斤,若各买1斤,平均每元可买多少斤?
解题思路:本题已知每元可买蔬菜的斤数,可直接使用HARMEAN函数计算“平均每元的斤数”这个简单调和平均数。同时,可以利用所给全部数据计算加权调和平均数。
解题过程:建立数据表,输入公式。
(1)建立数据表。在文件“第4章统计量.xlsx”中的“两类调和平均数”工作表中,建立一个“两类调和平均数”表,输入有关数据,如图4-22所示。
(2)输入公式。在L4单元格输入公式“=HARMEAN(I4:K4)”。
在L5单元格输入数组公式“{=SUM(I5:K5)/SUM(I3:K3/I4:K4*I5:K5)}”。
结果如图4-23所示。
图4-22 斤数相等的3种蔬菜的购买情况
图4-23 斤数相等的3种蔬菜平均每元的斤数
注意
本题L4单元格的得数与L5单元格的得数相等,但L4单元格计算的是简单调和平均数,而L5单元格计算的是加权调和平均数。如果计算I4:K4区域的算术平均数,则是错误的算法。如果每种蔬菜所购斤数不是1斤,而是另外一个相等的斤数,例如4斤,情况会怎么样呢?复制H2:M5区域到H8单元格,将3种蔬菜的斤数全部改为4,结果如图4-24所示。
可以看出,简单调和平均数与加权调和平均数的得数仍然相等。
如果每种蔬菜所购斤数不是1斤,而是不等的斤数,例如4、3、2斤,情况又会怎么样呢?复制H2:M5区域到H14单元格,将3种蔬菜的斤数全部分别改为4、3、2,结果如图4-25所示。
图4-24 斤数相等的3种蔬菜平均每元的斤数
图4-25 斤数相等的3种蔬菜平均每元的斤数
可以看出,实购斤数不相等时,简单调和平均数与加权调和平均数的得数不相等。简单调和平均数没有考虑到斤数的权重,所以从算理上讲是错误的。
例4-11 一种商品3个批次的单价分别为35元、40元、42元,金额分别为10500元、20000元、14700元。问:这种商品的平均单价是多少元?
解题思路:本题先根据金额和单价计算出每批次的数量,因为每批次的数量不等,所以还要计算加权调和平均数。当然,也可以根据原始数据利用数组公式直接计算加权调和平均数。
解题过程:建立数据表,输入公式。
(1)建立数据表。在文件“第4章统计量.xlsx”中的“调和平均数”工作表中,建立一个“数量未知时计算平均单价(加权调和平均数)”表,输入有关数据,如图4-26所示。
(2)输入公式。
在P5单元格输入公式“=P4/P3”。
将P5单元格的公式向右填充到R5单元。
在S3单元格输入公式“=SUM(P3:R3)”。
将S3单元格的公式向下填充到S5单元。
在T3单元格输入公式“=S4/S5”。
在U3单元格输入数组公式“SUM(P4:R4)/SUM(P4:R4/P3:R3)}”。
结果如图4-27所示。
图4-26 一种商品3个批次的单价和金额
图4-27 数量未知时计算平均单价
注意
如果已知这种商品3个批次的单价和数量,此时要计算的平均单价就是加权调和平均数。复制O2:U5区域到O8单元格,复制P11:R11区域以“值”的形式粘贴在本区域。清除P10:R10的数据,在P10单元格输入公式“=P9*P11”。将P10单元格的公式向右填充到R10单元格。将U9单元格的公式修改为“{=SUM(P11:R11*P9:R9)/SUM(P11:R11)}”。结果如图4-28所示。
图4-28 金额未知时计算平均单价
4.1.5 中数
中数(Median)又称中点数、中位数、中值。中数是按大小顺序排列在一起的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。如果数据的个数是奇数,则中间那个数据就是这群数据的中数,中数在数列中的位置为(n+1)/2;如果数据的个数是偶数,则中间那2个数据的算术平均值就是这群数据的中数,中数在数列的位置为n/2、n/2+1。中数不受分布数列的极大或极小值影响,从而在一定程度上提高了中数对分布数列的代表性。有些离散型变量的单项式数列,当次数分布呈偏态时,中数的代表性会受到影响。
如果数据已经分组,没有原始数据,就只能根据累积频数分布表,运用插值法,按比例计算中数,公式为
式中,L为中数所在组的下限;n为总频数;Fm-1为中数所在组以下的累积频数;fm为中数所在组的频数;d为组距。
例4-12 在例4-1的基础上,分别按原始成绩和频数分布表计算中数。
解题思路:在Excel中,对原始数据(未分组数据)可以使用MEDIAN函数计算中数,对分组数据则使用推演公式计算中数。
解题过程:例4-1中已建立“两类数据的集中量数”表,这里直接输入公式。
在L4单元格输入公式“=MEDIAN(C3:C252)”。
在M4单元格输入公式“=81+(I10/2-I6)/H7*5”。
结果如图4-29所示。
图4-29 计算中数的结果
【函数公式解析】
MEDIAN函数返回一组已知数字的中值。具体语法为:
MEDIAN(number1,[number2],…)
number1,[number2],…:number1是必需的,后续数字是可选的,要计算中值的1~255个数字。如果参数集合中包含偶数个数字,MEDIAN将返回位于中间的两个数的平均值。
4.1.6 众数
众数(Mode)是在一组数据中,出现次数最多的那个原始数据,不是指相应的次数,用Mo来表示。众数不受极端数据的影响,并且求法简便,但用众数代表一组数据,可靠性较差。
如果数据已经分组,没有原始数据,就只能根据累积频数分布表,运用插值法,按比例推演众数,公式为
式中,L为众数所在组的下限;fm为众数所在组的频数;fm-1为众数所在组前一组的频数;Fm+1为众数所在组后一组的频数。
例4-13 在例4-1的基础上,分别按原始成绩和频数分布表计算众数。
解题思路:在Excel中,对原始数据(未分组数据)可以使用MODE.SNGL函数计算众数,对分组数据则使用推演公式计算众数。
解题过程:例4-1中已建立数据表,这里直接输入公式。
在L5单元格输入公式“=MODE.SNGL(C3:C252)”。
在M5单元格输入公式“=81+(H7-H6)/(H7*2-H6-H8)*5”。
结果如图4-30所示。
图4-30 计算众数的结果
【函数公式解析】
MODE.SNGL函数返回在某一数组或数据区域中出现频率最多的数值。具体语法为:
MODE.SNGL(number1,[number2],…)
number1:必需,要计算其众数的第一个参数。
number2,…:可选,要计算其众数的2~254个参数。也可以用单一数组或对某个数组的引用来代替用逗号分隔的参数。参数可以是数字或者是包含数字的名称、数组或引用。如果数组或引用参数包含文本、逻辑值或空白单元格,则这些值将被忽略;但包含零值的单元格将计算在内。
注意
如果要提高运用公式计算众数的自动化程度,可以将fm、fm-1、fm+1等定义为名称f众、f小、f大等类似的名称。名称所用公式分别为:
在M6单元格输入公式“=81+(f众-f小)/(f众*2-f小-f大)*5”。
结果如图4-31所示。
图4-31 用名称计算众数的结果
4.1.7 分类的集中量数
前面在介绍平均数、中数和众数3个集中量数时,所举例子均没有分类计算集中量数。实际上,这批原始数据可能是有类别的。下面介绍分类计算集中量数的技巧。
例4-14 利用例4-1的原始数据,如何按班计算平均数、中数和众数?
解题思路1:在Excel中,使用IF函数的条件判断功能结合其他函数,可以分类计算平均数、中数和众数。
解题过程:建立统计表,输入公式。
(1)建立统计表。在文件“第4章统计量.xlsx”中的“集中量数”工作表中,建立一个“未分组数据分类的集中量数”统计表,如图4-32所示。
(2)输入公式。
在P3单元格公式输入数组公式“{=AVERAGE(IF($B$3:$B$252=O3,$C$3:$C$252))}”。
在Q3单元格输入公式“=AVERAGEIF($B$3:$B$252,O3,$C$3:$C$252)”。
在R3单元格公式输入数组公式“{=MEDIAN(IF($B$3:$B$252=O3,$C$3:$C$252))}”。
在S3单元格公式输入数组公式“{=MODE(IF($B$3:$B$252=O3,$C$3:$C$252))}”。
将P3:S3区域的公式向下填充到S7单元格。
结果如图4-33所示。
图4-32 分类的集中量数统计表
图4-33 计算集中量数的结果
【函数公式解析】
IF函数省略了第3参数,不满足条件的数据被转换成FALSE,AVERAGE、AVERAGEIF、MEDIAN、MODE函数都将忽略FALSE,从而达到分类统计的目的。
解题思路2:在Excel中,可以利用数据透视表分类统计的功能来分类计算平均数。
解题过程:插入数据透视表,更改值汇总依据。
(1)插入数据透视表。操作过程为:
➊ 单击“插入”选项卡。
➋ 单击“表格”组中的“数据透视表”按钮。
➌ 在弹出的“创建数据透视表”对话框中,将鼠标放置于“选择一个表或区域”单选按钮右侧的“表/区域”框,使用鼠标拖动选择A2:C252区域。
➍ 在“选择放置数据透视表的位置”组中单击“现有工作表”单选按钮。
➎ 将鼠标放置于“位置”框中,使用鼠标单击P12单元格。
➏ 单击“确定”按钮,随即生成空白数据透视表并弹出“数据透视表字段”任务窗格。
➐ 在“数据透视表字段”任务窗格,将字段节区域中的“班级”字段拖放到“行”区域节,将“政治”字段拖放到“值”区域节。
操作过程及结果如图4-34所示。
图4-34 插入数据透视表
(2)更改值汇总依据。操作过程为:
➊ 右击数据透视表“值”区域中的任意单元格,例如Q13单元格。
➋ 在快捷菜单中选择“值汇总依据”级联菜单的“平均值”命令。
操作过程及结果如图4-35所示。
图4-35 更改值汇总依据