第六节 理解分布和图表
统计学家们会花费大量时间讨论分布。分布就是变量的数据或变量值的集合。通常,这些变量值按照从小到大的顺序进行排序,并且能用图表呈现出来。分布这个概念在统计学里非常重要,所以我们需要在本书的一开始就进行着重介绍,按照分布的不同类型提供几个例子,并且阐述这些分布在图表中如何呈现。在本书的后面部分,会有整章内容详细讲解统计学里常见的正态分布,(第四章)。
让我们从简单的例子开始讲起。假如我们要开展一个关于对离婚态度的民意调查,我们可以随机选择500个人参与我们的研究。我们可能需要了解的是这些参与者的性别。通过调查,所有的参与者中,男性占40%,女性占60%。注意:性别这个变量是名义变量,因为名义变量只有类别之分,没有数值衡量依据,无法在数值上对男性和女性分布进行高低排序,所以仅需要说明男性和女性的比例分别是多少。
描述性别分布的图有很多种,包括柱形图、饼图、条形图、折线图等。选择合适的图的关键在于作图是为了让数据的表述更容易被理解。为了呈现性别分布,饼图和柱状图是常用的呈现方式。
有时,研究者会同时关注多个变量的分布情况。例如,如果我们想了解看电视的时间和做家庭作业的时间之间的关联,我们可以从不同国家(美国、墨西哥、中国、挪威和日本)抽取高中生作为样本,那么我们可以获得两个不同变量的分国家的交叉表。为了比较这5个国家的数据特征,我们可以计算每个国家的相关变量的平均值。图1.2清楚地展示了在美国和墨西哥,平均收看电视数量与每天平均完成功课时数之间的差距很大,在中国则不存在。在挪威和日本,相比看电视的时间,高中生通常花费更多的时间做功课。由此看来,一个简单的图即可反映一组复杂的数据。
图1.2 五个国家中看电视时间和家庭作业时间分布
折线图是另一种常用的描述数据分布的方法(见图1.3),假设我们随机抽取了100个刚刚上完一学期课程的大一新生。我们要求他们告知他们每门课程的成绩等级,然后计算他们的平均成绩(GPA)。最后,我们把GPA成绩分成6组:1~1.4,1.5~1.9,2.0~2.4,2.5~2.9,3.0~3.4,3.5~4.0。当我们计算每个GPA中的学生人数时,使用折线图对这些数据进行分组并绘制图形,得到的结果如图1.3所示。注意:沿x轴显示了6个不同的GPA组,y轴代表频率。所以在图中,y轴显示了每一个GPA成绩组有多少个学生。从图中不难看出仅有15个学生在他们第一个学期学习很吃力,GPA成绩在1.0~1.4。只有1个学生在1.5~1.9GPA组。从此处开始,每个GPA组的学生呈现出在波动中增长的趋势。因此折线图能够迅速看出数据随时间或地域变化的趋势。在这个例子中,可以看出更多的学生在更高分数的GPA组,但也存在相当庞大的群体在低分组,学习很吃力。
图1.3 不同GPA成绩人群的频数分布(个)
任何基于变量值的数据收集,不管是什么类型的变量,都会呈现一种分布状态,这种分布可以用图表述出来。在本章内容中,呈现了多种不同类型的图,他们都各有优势。关键在于,在作图时需要选择最能清楚表述数据的那一种。当我们看图的时候,需要重点关注一些细节。尝试着从图形中最醒目的特征看向不太明显的特征。例如,x轴和y轴分别使用的刻度。如果忽略某些细节,图也可能会具有很大的迷惑性,把我们引向认知误区。