2.3 数据的集中趋势_从零进阶！数据分析的统计基础（第2版）-QQ阅读男生武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.3 数据的集中趋势

集中趋势在统计学中是指一组数据向某一中心值靠拢的程度，它反映了一组数据中心点所在的位置。集中趋势测度就是寻找数据水平的代表值或中心值。在数据量大的情况下，就需要有一些确切的指标来表明其整体状态。这些指标最常见的就是平均数、分位数和众数。本节从各种指标适用的数据类型角度，介绍几种常用的数据集中趋势的度量指标。

2.3.1 平均数

平均数是描述定量数据的集中趋势，是最常用的一种测度值。它主要适用于定量数据，而不适用于定性数据。根据所掌握数据的不同，平均数有不同的计算形式和计算公式，主要包括简单算术平均数、加权算法平均数和几何算法平均数等。在进行数据分析时，简单算术平均数使用较为广泛，本书着重介绍简单算术平均数，以下简称平均数。

一个数列的平均数等于它们的和除以它们所含个数，记为。公式如下：

例如，数据9，1，2，2，0共有5项，首项为9，其平均数是。

平均数是概括数据的一个强有力的指标，它通过消除极端数据的差异将大量的数据浓缩成一个数来概括，可以较好地实现数据集中趋势的度量，但这种过度的浓缩使其存在容易受极端值影响的缺点。

下面我们通过一个例子来进一步深入了解平均数。设有一个数列：1，2，2，3，这个数列的直方图（见图2.10）关于平均数2对称，直方图面积的50%在平均数2的左边，50%在平均数2的右边。

图2.10 数列直方图

改变数列中最后一个数的值，假设由3变为5或7，下面观察平均数的变化情况，如图2.11所示。

图2.11 直方图变化过程

由于每个数的频率为0.25，因此最后一个数的改变，不会改变该数的频率，但由于数据的取值变化了，使得平均数也发生了变化。从图2.11中可以看出，平均数随着极端值的变化而变化，而且有向极端值靠近的趋势，因此平均数容易受极端值影响。为了消除极端值对平均数的影响也可根据实际情况去掉极端值，例如在歌手大奖赛中，去掉评委的一个最高分和一个最低分，然后再计算其平均数，就是为了消除极端值对歌手得分的影响。

2.3.2 分位数

分位数是一种比较常用的数据探索性分析的指标，它的适用范围较广，既适合顺序数据，也适合定量数据。它是指介于最大值和最小值之间的一个数值，它使得数据的一部分观察值小于或等于它，另一部分观察值大于或等于它。常见的分位数有百分位数、四分位数和中位数等。

百分位数是一个位置指标，用X_p_%表示。对一列数据来说，它表示在按照升序排列的数列中，其左侧（即小于X_p_%侧）的观察个数在整个样本中所占的百分比为p%，其右侧（即大于X_p_%侧）的观察个数在整个样本中所占的百分比为（100-p）%。

四分位数，是一种特殊的百分位数，它不受极端值的影响。在统计学中，把所有数值由小到大排列并分成四等份，处于三个分割点位置的数字就是四分位数。第一四分位数（Q1），又称“较小四分位数”，等于该样本中所有数值由小到大排列后第25%的数字。第二四分位数（Q2），又称“中位数”，等于该样本中所有数值由小到大排列后第50%的数字。第三四分位数（Q3），又称“较大四分位数”，等于该样本中所有数值由小到大排列后第75%的数字，如图2.12所示。

图2.12 四分位数示意图

中位数，是一种特殊的四分位数，一组数据按大小顺序排列后，处在数列中点位置的数值，则被称为中位数。中位数从中间的一个点将全部数据分为两个部分。它不受极端值的影响，既适合顺序数据，也适合定量数据。

中位数将全部数据等分成两部分，每部分包含50%的数据，一部分数据比中位数大，另一部分则比中位数小。中位数主要用于测试顺序数据的集中趋势，当然也适用于作为定量数据的集中趋势，但不适用于分类数据。和平均数一样，一个数列中只有一个中位数。将一组n个数据从小到大排序后，可以计算中位数，中位数的计算分两种情况：

（1）当n为奇数时，中位数等于第（n+1）/2个数对应的值。

（2）当n为偶数时，中位数等于第n/2个和第（n/2）+1个数的平均值。

例2.1 在某城市中随机抽取5个家庭，调查得到每个家庭的人均月收入数据（单位：元）如下，计算人均月收入的中位数。

3000 1500 3400 2400 4500

解：先将上面的数据排序，结果如下。

1500 2400 3000 3400 4500

n=5为奇数，中位数位置=（5+1）÷2=3，即中位数为序列中第三个位置的数的取值，即中位数=3000（元）。

下面再看一看当数据个数为偶数时又该怎样计算中位数。假定我们抽取了6个家庭，每个家庭的人均月收入数据排序后为：

1500 2400 3000 3200 4000 4500

中位数第3个和第4个数的平均值，即为中位数。

Me=(3000+3200)÷2=3100

中位数是一个位置代表值，其特点是不受极端值的影响，在分析收入分配的数据时很有用。

2.3.3 众数

众数是描述分类数据的集中趋势最常用的一种测度值，它主要适用于分类数据，当然也适用于顺序数据及定量数据。一般只有在数据量较大的情况下，众数才有意义。

众数是指一组数据中出现次数最多的变量值。其主要特点是不受极端值影响，但在一组数据中不是只有一个众数，有可能有多个众数或者没有众数。众数的不唯一性在分布图上表现为三种形态，如图2.13所示。

图2.13 众数的表现形态

例2.2 在某高校中随机抽取9个男生，得到每个人的身高数据（cm）如下，计算男生身高的众数。

180 175 171 171 171 162 178 170 170

解：身高出现次数最多的是171（cm），因此，众数为171（cm）。