2.3 数据的集中趋势
集中趋势在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点所在的位置。集中趋势测度就是寻找数据水平的代表值或中心值。在数据量大的情况下,就需要有一些确切的指标来表明其整体状态。这些指标最常见的就是平均数、分位数和众数。本节从各种指标适用的数据类型角度,介绍几种常用的数据集中趋势的度量指标。
2.3.1 平均数
平均数是描述定量数据的集中趋势,是最常用的一种测度值。它主要适用于定量数据,而不适用于定性数据。根据所掌握数据的不同,平均数有不同的计算形式和计算公式,主要包括简单算术平均数、加权算法平均数和几何算法平均数等。在进行数据分析时,简单算术平均数使用较为广泛,本书着重介绍简单算术平均数,以下简称平均数。
一个数列的平均数等于它们的和除以它们所含个数,记为。公式如下:
例如,数据9,1,2,2,0共有5项,首项为9,其平均数是。
平均数是概括数据的一个强有力的指标,它通过消除极端数据的差异将大量的数据浓缩成一个数来概括,可以较好地实现数据集中趋势的度量,但这种过度的浓缩使其存在容易受极端值影响的缺点。
下面我们通过一个例子来进一步深入了解平均数。设有一个数列:1,2,2,3,这个数列的直方图(见图2.10)关于平均数2对称,直方图面积的50%在平均数2的左边,50%在平均数2的右边。
图2.10 数列直方图
改变数列中最后一个数的值,假设由3变为5或7,下面观察平均数的变化情况,如图2.11所示。
图2.11 直方图变化过程
由于每个数的频率为0.25,因此最后一个数的改变,不会改变该数的频率,但由于数据的取值变化了,使得平均数也发生了变化。从图2.11中可以看出,平均数随着极端值的变化而变化,而且有向极端值靠近的趋势,因此平均数容易受极端值影响。为了消除极端值对平均数的影响也可根据实际情况去掉极端值,例如在歌手大奖赛中,去掉评委的一个最高分和一个最低分,然后再计算其平均数,就是为了消除极端值对歌手得分的影响。
2.3.2 分位数
分位数是一种比较常用的数据探索性分析的指标,它的适用范围较广,既适合顺序数据,也适合定量数据。它是指介于最大值和最小值之间的一个数值,它使得数据的一部分观察值小于或等于它,另一部分观察值大于或等于它。常见的分位数有百分位数、四分位数和中位数等。
百分位数是一个位置指标,用Xp%表示。对一列数据来说,它表示在按照升序排列的数列中,其左侧(即小于Xp%侧)的观察个数在整个样本中所占的百分比为p%,其右侧(即大于Xp%侧)的观察个数在整个样本中所占的百分比为(100-p)%。
四分位数,是一种特殊的百分位数,它不受极端值的影响。在统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的数字就是四分位数。第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字,如图2.12所示。
图2.12 四分位数示意图
中位数,是一种特殊的四分位数,一组数据按大小顺序排列后,处在数列中点位置的数值,则被称为中位数。中位数从中间的一个点将全部数据分为两个部分。它不受极端值的影响,既适合顺序数据,也适合定量数据。
中位数将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。中位数主要用于测试顺序数据的集中趋势,当然也适用于作为定量数据的集中趋势,但不适用于分类数据。和平均数一样,一个数列中只有一个中位数。将一组n个数据从小到大排序后,可以计算中位数,中位数的计算分两种情况:
(1)当n为奇数时,中位数等于第(n+1)/2个数对应的值。
(2)当n为偶数时,中位数等于第n/2个和第(n/2)+1个数的平均值。
例2.1 在某城市中随机抽取5个家庭,调查得到每个家庭的人均月收入数据(单位:元)如下,计算人均月收入的中位数。
3000 1500 3400 2400 4500
解:先将上面的数据排序,结果如下。
1500 2400 3000 3400 4500
n=5为奇数,中位数位置=(5+1)÷2=3,即中位数为序列中第三个位置的数的取值,即中位数=3000(元)。
下面再看一看当数据个数为偶数时又该怎样计算中位数。假定我们抽取了6个家庭,每个家庭的人均月收入数据排序后为:
1500 2400 3000 3200 4000 4500
中位数第3个和第4个数的平均值,即为中位数。
Me=(3000+3200)÷2=3100
中位数是一个位置代表值,其特点是不受极端值的影响,在分析收入分配的数据时很有用。
2.3.3 众数
众数是描述分类数据的集中趋势最常用的一种测度值,它主要适用于分类数据,当然也适用于顺序数据及定量数据。一般只有在数据量较大的情况下,众数才有意义。
众数是指一组数据中出现次数最多的变量值。其主要特点是不受极端值影响,但在一组数据中不是只有一个众数,有可能有多个众数或者没有众数。众数的不唯一性在分布图上表现为三种形态,如图2.13所示。
图2.13 众数的表现形态
例2.2 在某高校中随机抽取9个男生,得到每个人的身高数据(cm)如下,计算男生身高的众数。
180 175 171 171 171 162 178 170 170
解:身高出现次数最多的是171(cm),因此,众数为171(cm)。