统计分析与数据解读
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第三节 实例:均值、中位数、偏态分布的众数

当数据的分布呈现正态分布时,众数、中位数和平均数都位于同一点:分布的中心。但是,在社会科学领域,来自某一样本的变量取值分布有时候不是正态分布,当分布中的较多取值倾向于在分布的一端聚集,而在另一端仅有少量值时,则认为该分布为偏态分布。在偏态分布中,均值、中位数和众数通常都在不同的位置。值得注意的是,不管是偏态分布还是正态分布,众数、中位数和平均数的计算方法都是一样的。区别在于众数、中位数和平均数位置关系的不同。为了解释这一点,我们编制了一个样本为30的取值分布。假设我们要抽取30个随机选择的五年级学生作为样本,询问他们是否认为“在学校表现出色很重要”?我们进一步将重要程度划分为5个等级,其中1=“一点都不重要”,5=“非常重要”。因为大多数五年级学生都倾向于认为在学校表现出色非常重要,所以他们的大部分成绩都处于较高的水平,较少的学生成绩处于较低的水平。现在获得以下数据分布:

如上,只有极少数值处于分布的低端(1,2),更多取值在分布的高端(4,5)。

均值的计算方法很简单,我们把所有的取值进行加总求和,然后除以变量值的个数就可以了。

中位数的计算方法如下:首先我们将数据从小到大排序,然后找到中间值。

正如我之前提到的那样,均值容易受极值的影响,但中位数不受极值影响,在偏态分布中,如果数据分布是左偏分布,说明数据存在最小值,必然拉动平均数向极小值靠近。中位数、均值、众数的相互关系表现为:均值<中位数<众数。如果数据分布是右偏分布,说明数据存在最大值,必然拉动平均数向极大值靠近。中位数、均值、众数的相互关系表现为:众数<中位数<均值。

对于较小的样本,离群值对均值的影响更为显著,因为在较小的样本中,一个离群值不会产生非常明显的影响。但是对于小样本来说,大样本中一个离群值不会产生非常显著的效果。但是,如果样本量很小,则离群值就会导致均值发生较大变化。