3.4.5 可视化的基本图表
统计图表是最早的数据可视化形式之一,作为基本的可视化元素仍然被广泛使用。对于很多复杂的大型可视化系统来说,这类图表更是作为不可或缺的基本组成元素。基本的可视化图表按照所呈现的信息和视觉复杂程度可以分为3类:原始数据绘图、简单统计值标绘和多视图协调关联。
1.原始数据绘图
原始数据绘图用于可视化原始数据的属性值,直观呈现数据特征,其代表性方法包括数据轨迹、柱状图、折线图、直方图、饼图、等值线图、走势图、散点图、气泡图、维恩图、热力图和雷达图等。实际选择图表时应先从总体上观察数据,然后放大到具体的分类和独立的特点。
(1)数据轨迹是一种标准的单变量数据呈现方法:x 轴显示自变量,y 轴显示因变量。数据轨迹可直观地呈现数据分布、离群值、均值的偏移等,如股票随时间的价格走势图。
(2)柱状图采用长方形的形状和颜色编码数据的属性。柱状图的每根直柱内部可用像素图方式编码,也称为堆叠图。柱状图适用于二维数据集,但只有一个维度需要比较。柱状图利用柱子的高度,反映数据的差异。肉眼对高度差异很敏感,所以效果比较好。柱状图的局限在于只适用于中小规模的数据集。
(3)折线图适用于二维大数据集,尤其是那些趋势比单个数据点更重要的场合。它还适用于多个二维数据集的比较。
(4)直方图是对数据集的某个数据属性的频率统计。对于单变量数据,其取值范围映射到横轴,并分割为多个子区间。每个子区间用一个直立的长方块表示,高度正比于属于该属性值子区间的数据点的个数。直方图可以呈现数据的分布、离群值和数据分布的模态。直方图的各个部分之和等于单位整体,而柱状图的各个部分之和没有限制,这是两者的主要区别。
(5)饼图采用环状方式呈现各分量在整体中的比例。这种分块方式是环状树图等可视表达的基础。饼图很多时候应该尽量避免使用,因为肉眼对面积的大小不敏感。一般情况下,应用柱状图替代饼图,但是有一个例外,就是反映某个部分占整体的比例。
(6)等值线图使用相等数值的数据点连线来表示数据的连续分布和变化规律。等值线图中的曲线是空间中具有相同数值(高度、深度等)的数据点在平面上的投影。
(7)走势图是一种紧凑简洁的数据趋势表达方式,它通常以折线图为基础,往往直接嵌入在文本或表格中。走势图使用高度密集的折线图表达方式来展示数据随某一变量(时间、空间)的变化趋势。
(8)散点图是表示二维数据的标准方法。在散点图中,所有数据以点的形式出现在笛卡儿坐标系中,每个点所对应的横纵坐标代表该数据在坐标轴二维维度上的属性值大小。散点图适用于三维数据集,但其中只有两维需要比较。有时候为了识别第三维,可以为每个点加上文字标识,或者不同的颜色。
(9)气泡图是散点图的一种变形,通过每个点的面积大小,反映第三维。如果为气泡图加上不同颜色(或者文字标签),气泡图就可以用来表示四维数据。
(10)维恩图使用平面上的封闭图形来表示数据集合之间的关系。每个封闭图形代表一个数据集合,图形之间的交叠部分代表集合间的交集,图形外的部分代表不属于该集合的数据部分。
(11)热力图使用颜色来表达位置相关的二维数值数据大小。这些数据常以矩阵或方格形式排列,或在地图上按一定位置关系排列,每个数据点可以使用颜色编码数值的大小。
(12)雷达图适用于多维数据(四维以上),且每个维度必须可以排序。但是,它有一个局限,就是数据点最多6个,否则无法辨别,因此适用场合有限。
2.简单统计值标绘
盒须图是John Tukey发明的通过标绘简单的统计值来呈现一维和二维数据分布的方法。它的基本形式是用一个长方形盒子表示数据的大致范围,并在盒子中用横线标明均值的位置。同时,在盒子上部和下部分别用两根横线标注最大值和最小值。盒须图在实验数据的统计分析中很有用。针对二维数据,标准的一维盒须图可以根据需要扩充为二维盒须图。
3.多视图协调关联
多视图协调关联将不同类型的绘图组合起来,每个绘图单元可以展现数据某方面的属性,并且通常允许用户进行交互分析,提升用户对数据的模式识别能力。在多视图协调关联应用中,“选择”操作作为一种探索方法,可以是对某个对象和属性进“取消选择”的过程,也可以是选择属性的子集或对象的子集,以查看每个部分之间的关系的过程。