上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.3 在数据中寻找什么
我们通过数据可视化,是为了从中寻找什么呢?三个方面:模式、关系和异常。不管图形表现的是什么,我们都要留心观察这三个方面。
模式,即数据中的某种规律。比如机场每月的旅客人数随着时间推移变化不定,通过几年的数据的对比,我们可以发现旅客人数存在着季节性或周期性的变化规律。又比如,分析某家网站不同时间内各个板块的访问量,转化率等,如图1-3-1所示。
图1-3-1 数据规律
关系,即各数据指标之间的相关性。在统计学中,关系通常代表关联性和因果关系。多个变量之间经常存在某种联系。比如,在散点图中,我们可以观察两个坐标轴的两个字段之间的相关关系,是正相关还是负相关,或者是不相关。如此,我们可以依次找到与因变量具有较强相关关系的自变量,从而确定主要的影响因素。比如我们研究网站访问的目标完成情况与访问量、转化率等的关系,如图1-3-2所示。
异常,即显著不同于大多数的数据。异常的数据并非都是错误数据,有些可能是设备记录或人工输入数据时出现了错误而导致的错误数据;有些也可能就是正确的数据,只是存在人为欺诈或偶然因素的影响使得数据出现了异常。通过异常分析,一方面可以分析异常原因,对设备是否正常运转或员工工作态度进行检测;另一方面可以检测制度的漏洞,以完善制度,如图1-3-3所示。
图1-3-2 关联性分析
图1-3-3 异常数据