CHAPTER 1
第1章
数据可视化概述
1.1 可视化简介
1.1.1 可视化的意义
人类主要依靠视觉、听觉、味觉等途径来获取外在世界的信息,而视觉是最重要的途径之一。视觉是指通过人眼来感知外在世界,同时接收和处理外界信息。虽然人眼具有高带宽的并行处理能力,对于一般的数字、文本等符号能够达到较好的识别效果,但是人眼对可视化符号的感知速度更快,而且有助于人类进行潜意识加工[1]。通常,人类执行高效搜索的过程只能保持几分钟,并且信息越丰富,越容易耗费大量的注意力。通过可视化手段可以保存待处理信息,弥补人脑有限记忆的不足,同时也能吸引关注,高效传递信息。
1.1.2 可视化的功能
可视化(Visualization)是一种利用图形进行信息交流的方法表示[2]。可视化过程是指将复杂的信息以图形的形式呈现出来,让这些信息更容易、更快速地被人理解。因此,它也是一种放大人类感知的图形化表示手段[3]。可视化技术是对所需表达内容进行可视化表达以增强认知的技术。
通常,可视化具有以下几个功能。
1.信息记录与保存
古今中外,草图是记录与保存大量历史信息的最好方式。最早,古人采用结绳记事,通过在不同粗细的绳子上结成不同距离、不同大小的结来记录事物。虽然结绳记事的方式不能直接反映出记录的事物,但通过结法、结的大小、距离大小以及绳子粗细可以表达出不同的信息。草图不仅能直观地描述事物,如达·芬奇对人头盖骨的可视化,而且多幅连续渐变的图能反映事物周期变化,如伽利略关于月亮周期的绘图。当然,现代的绘画和图形图像形式更为多样,内容更为丰富,能更加详细地记录历史信息的方方面面。
2.信息推理与分析
可视化能扩充人脑记忆,帮助人脑形象地理解和分析任务,显著提升信息分析的效率。将信息以可视化的形式呈现给受众,可以引导受众通过可视化结果进行合理的推理和分析,进而得到有用的信息。这种直观的信息感知机制,大大降低了受众对对象感知和理解的复杂程度。如湖泊藻类生长的可视化场景,能帮助受众理解藻类蔓延的路径和速度等信息,以辅助分析消除和控制藻类蔓延的关键点和时长等。
3.信息传播与扩散
一般认为,“百闻不如一见”“一图胜千言”,可视化图形能简洁明了地让受众理解并传播信息,也能抓住受众“眼球”,对信息进行扩散。例如,在数字经济蓬勃发展的当下,电子商务平台充分使用图片和视频等可视化形式展示和推广商品,如在酒店产品及服务的在线展示中,一张好的图片或一段视频展示胜过长篇的文字性介绍。
1.1.3 可视化的分类
可视化的目标在于帮助感知者洞悉蕴藏于事物中的知识和规律。从展示时间变化来看,可视化可分为动态和静态的形式;从展示形式来看,可视化可分为直接和间接的形式;从信息传递方式来看,可视化可分为探索性和解释性的形式。
1.从展示时间变化来看
(1)动态可视化。动态可视化是随时间流动而改变形态的可视化形式,通过动态的图像和视频等方式展示。这种动态方式可以呈现出信息随时间的变化,用帧的形式进行可视化对象的形态展示,即动态成像方式。随着帧数变多,动态变化越细致,时间粒度越小,就形成了一种动画或视频的可视化展示方式。动态可视化的表现形式丰富多样,具有极强的包容性,也可以采用多种形式混搭,尤其随着交互技术的出现,可以以交互形式进行动态可视化展示。
(2)静态可视化。静态可视化是对对象的某一个时间点上的形态、属性等方面进行展示,相当于动态可视化某一时刻点上的一个截面,可以通过图、表或混合的方式进行展示。其中:图形可以展示对象的形态,如线条型、平面图、立体图、多维空间图等;表格可以用于展示对象的多个属性和内容,如二维表、三维表、多维表等;图表或者图文等混合方式结合了图形、表格、文字等多方面的优势,可以综合展示对象的形态、属性等。
2.从展示形式来看
(1)直接可视化。直接可视化是将对象表面的属性和内容进行直接展示,能最直接表现出对象的原始形态和特征,让受众获得最直观的印象。这种形式通常利用图、表等直接输出,技术上比较容易实现且成本较低。
(2)间接可视化。相比于直接可视化,间接可视化是将对象部分属性进行合并或者变换以展示对象的某些特点或者特征。属性合并是将对象的多个属性用一个属性进行替代,以达到降维的目的,如将多个成绩用平均绩点或者成绩等级来替换。属性变换是将对象的属性数据类型或者取值进行某种变换,如将字符型变换成数值型,将百分制成绩分数变换为绩点等。
3.从信息传递方式来看
(1)探索性可视化。有时候,观察者不容易直接从对象的属性和内容中获取所需要的信息,但是可以通过可视化的手段进行呈现和展示,以辅助发现对象的特征、趋势或异常,如罪犯特征、犯罪时间趋势等。这种可视化技术通常配合数据挖掘技术一起运用。
(2)解释性可视化。解释性可视化是一种在视觉呈现阶段,依据已知的信息或知识,以可视化的方式将它们传递给受众的形式。相比于探索性可视化,解释性可视化更为直观,但表达的潜在信息相对较少。
1.1.4 可视化的发展史[4]
1.17世纪前:早期地图与图表
最早的可视化萌芽出现在几何图、恒星和其他天体的位置表,以及帮助导航和探索的地图制作中。公元前200年,古埃及的测量师在规划城镇时使用了坐标的概念,地球和天体的位置也是由类似于经纬度的符号确定的。
图1-1 匀加速公式
图1-2 匀加速运动构形
14世纪,尼科尔·奥雷斯姆(Nicole Oresme)提出了关联值制表和绘制值的想法,随后不久尼科尔提出了距离与速度的理论图,即匀加速定理,如图1-1和图1-2所示。
到了16世纪,精确观测和测量物理量、地理位置及天体位置的技术和仪器得到了很好的发展。1617年,斯涅耳(W.Snell)首创三角测量法(见图1-3),此后绘制地图的视觉呈现方式更加精确。这些早期探索构成了可视化的开端。
图1-3 三角测量法
2.17世纪:几何学与坐标系
到了17世纪,最重要的问题之一是与时间、距离和空间的物理测量有关的问题。在使用测量和估计误差理论以及概率论等理论解决这些问题的同时,诞生并发展了几何学和坐标系等可视化方法。
3.18世纪:新的图形形式
到了18世纪,随着统计理论的发展,收集重要数据的基础逐渐完善以及图形表示思想的逐渐确立,制图者开始尝试在地图上显示新的数据表示,等高线和等值线由此被发明。物理量的专题映射也在此阶段建立完成。到了18世纪末,首次地质、经济和医学数据专题制图尝试成功。
4.19世纪上半叶:现代图形的开端
随着之前设计和技术创新的发展,到了19世纪上半叶,统计图形和专题制图出现了爆炸式增长。在统计图形学中,条形图、柱形图、线形图和时间序列图、等高线图、散点图等所有的现代数据显示形式都被发明了。专题地图学中的地图是从单一地图发展而来的,综合地图集则描绘了经济、社会、道德等各种数据主题,并介绍了各样新颖的象征形式。在此期间,描述和分析天气、潮汐等自然和物理现象的图形也开始出现在科学出版物上,图1-4为1833年出版的利兹霍乱地图。
图1-4 1833年出版的利兹霍乱地图
5.19世纪下半叶:统计图形的黄金时代
到了19世纪下半叶,可视化技术发展的所有条件都已经建立起来了。人们认识到数字信息对社会规划、工业化、商业和运输的重要性,欧洲各国纷纷设立国家统计局。为理解大量数据,高斯和拉普拉斯开创了统计理论,并由格雷和奎特莱特扩展到社会领域。19世纪下半叶可谓可视化发展的黄金时代。
6.20世纪上半叶:现代黑暗时代
到了20世纪初,图形创新很少;20世纪30年代中期,社会科学中量化和统计模型的兴起取代了19世纪末人们对可视化的热情。对可视化的发展来说,这是一个必要的休眠期、应用期和普及期,而不是创新期。在这一时期,统计图形成为主流,图解法也进入了英语教科书。
7.20世纪下半叶:新的曙光
随着计算机科学和技术的发展,数据可视化具有了新的活力,人们可以利用计算机技术在电脑屏幕上绘制出各种图形及图表,可视化技术开启了全新的发展阶段。20世纪70年代至80年代,人们开始尝试将静态数据用多维定量数据的静态图来表示;20世纪80年代中期,动态统计图表开始出现。20世纪末,静态统计图和动态统计图开始逐渐结合,试图实现动态的交互式可视化。
8.21世纪:数据可视化
21世纪,随着现代互联网技术的飞速发展,人们开始将可视化技术和数据挖掘、计算机图形学等结合起来,借助HTML5、JavaScript等技术动态地、可交互地展示高维数据,辅助用户将纷繁复杂甚至不完整的数据进行数据可视化,以便快速挖掘出有用的信息、做出决策,并形成了可视分析学这门新的学科。