2.1.6 分布图形
分布图形主要用于展示每个数值在数据集中出现的频次或数量,常见类型有直方图、箱形图、小提琴图等。
1. 直方图
直方图与柱状图非常相似,但在数据表示上,直方图主要展示数据的分布情况,而柱状图是比较数据的大小,这是两者最根本的区别。直方图是在连续间隔或特定的时间段内展示数据的图形,一般表示一组数据的频次和分布情况。
图2-25展示的是某个城市人口的年龄分布,把年龄分为0~10、11~20、21~30等若干组,通过图形可以看出人口的众数是41~50的数据,中位数是21~30/61~70的数据(众数是一组数据中出现最多的数据,中位数是数据集合中间的数据)。
因为直方图中的区间是连续的,所以柱子之间无间隔,另外直方图的柱子宽度有可能是不一样的。图2-25中81~100的数据分布,就表示这段数据是一样的。在设计直方图时,开始的柱子最好能与Y轴有一定的间隔,如图2-25中两个0的位置不在一个点上,这样能避免与Y轴重合。如若不留间隔,就最好把Y轴的线段去掉,避免重合。
图2-25
2. 箱形图
箱形图因形状类似于箱子而得名,其能够很好地展示一组数据的分布情况,以及分析一组数据的最大值、最小值、平均值、四分位数。
图2-26所示是对箱形图的解析,箱子最中间的一条线是数据的中位线,代表这组数据的平均值。箱子的上下限是数据的上下四分位数,四分位数是将一组数据分为四等分点,下四分位线是在数据分布中25%的位置,上四分位线是在数据分布中75%的位置,也就是说箱子中包含了50%的数据,所以箱子的高度能在一定程度上反映数据的波动程度。箱子的上下各有一条线,分别代表最大值和最小值。超出的圆点表示异常值,不在正常数据中统计。
图2-26
在图2-27中可以看出“后端工程师”的薪资波动最大,“UI设计师”的平均薪资要高于“交互设计师”。“产品经理”中有一项异常值,可以理解为这组数据中可能存在超高薪资的产品经理,其数据不具备参考性,故不算在正常的统计中。箱形图的特点是能过滤掉异常值的影响,准确地展示数据的分布情况。
图2-27
3. 小提琴图
小提琴图结合了箱形图的特征,同样是展示数据的分布情况。在图2-28中白点是中位数,上下边界与箱形图的箱子一样为四分位数的范围。细黑直线被称为须,表示数据的分布区间;外部的胖瘦形状表示数据分布的密度。
图2-28
从图2-28中可以看出4缸汽车的油耗最不稳定,因为四分位线的上下间隔最长,这表示数据分布较为分散;6缸汽车的四分位线的上下间隔最短,表示数据分布集中,油耗较为稳定;8缸汽车的数据分布跨度最大,说明油耗最不均匀,并且在图形中靠下的位置,说明最耗油。