数据分析师宝典
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 数据分析的三种类型

数据分析的数学基础早在20世纪初期就得到确立,但直到计算机诞生后,数据分析才得到推广。一般而言,现代的统计学将数据分析分为三个类型:描述性数据分析、探索性数据分析、验证性数据分析。其中,描述性数据分析着重于描述数据之间的关联;探索性数据分析着重于发现数据新的特征,该方法由美国著名统计学家约翰·图基命名;而验证性数据分析着重于对已有假设的证实或证伪。

接下来本小节就为大家主要介绍这三种数据分析类型。

1.1.1 描述性数据分析

如上文所述,描述性数据分析主要研究如何描述数据的整体状况以及它们之间的关联等。

通俗来讲,描述性数据分析就“是用一句话描述数据”。我们日常生活中经常提及的“我的月平均水费是多少”“邻居的月平均水费是多少”“有多少人和我花的钱一样多”等,都属于描述性数据分析。为了便于大家进一步理解,下面以新文化公司的用户分布扇形图为例进行讲解(如图1-1)。

图1-1 新文化公司的用户分布扇形图

从图1-1可见,新文化公司对公司的用户进行了细致的划分,并将其分为七类,分别为新用户、一周用户、一个月用户、三个月用户、六个月用户、一年用户以及一年以上的用户;并对其成员数量分布进行了统计,具体数据如图1-1所示。

从图中我们可以看出描述性数据分析的两大特点,第一是需要对数据进行划分,可以按个体划分,也可以按群体划分,上图中的数据便属于按群体划分的,而“这个月我的平均水费是多少”属于按个体划分的;第二是需要有较为明确的数据结果。

将以上这两点代入数据分析中,就可以转化为平均值、中位数、众数、方差和标准差等能够反映数据特性的数据。而这些数据在描述性数据分析中又分为集中型(如平均值、中位数和众数等)与离散型(如方差、标准差等)两类,它们的具体含义如下所示。

(1)平均值:表示一组数据集中趋势的量数,避免了观测值的随机波动,但容易受到一些极端数据的影响。例如平均速度、平均产量、平均成绩等。

(2)中位数:代表一个样本或概率分布中的一个数值,其可将整体的样本集合划分为数量相等的左右两部分。假如样本是有限的,可以把样本中所有的数值按照高低排序,然后找到正中间的一个数值即为中位数(样本个数为奇数时取正中间那一个;样本个数为偶数时,取中间两个数值的平均数)。

(3)众数:在样本中,出现次数最多的数值为众数。比如这样一组数据:1,2,2,3,3,3,4,其众数为3。

(4)方差:用于计算每一个变量与总体均值之间的差值。然而根据定义出发,可能会出现离均差总和为零的情况,例如,1,2,3,4,5这组数据中就会出现离均差总和为零的情况。为了避免出现此种情况,统计学中一般用平均离均差平方来描述变量的差值程度。具体的计算公式如下。

σ2为总体方差,X 为变量,μ为总体均值,N 为总体例数)

(5)标准差:将方差开平方后就可以得到标准差。由于计算方差最后得到的是数据的平方,与检测值有些差距,人们难以直观地衡量,故常用方差的算术平方根来计算标准差,从而更为直观地观察数据的离散程度。

1.1.2 探索性数据分析

探索性数据分析着重于发现数据新的特征,这是数据分析过程中重要的一步。只有了解所收集的数据,才能最终确定有用的数据,并揭开这些数据背后代表的意义。

在20世纪70年代,约翰·图基创造的探索性数据分析通常被称为一种哲学,实际上约翰·图基对于如何分析数据并没有给出一个具体规则,也就是说探索性数据分析实际上只是给出一个整体的范围,用来帮助定义“什么是”,并由此解决具体的任务。下面介绍一下探索性数据分析的过程,方便大家理解。

(1)发现错误的数据。

(2)绘制数据的基层结构。

(3)确定重要的变量。

(4)列出异常的数据。

(5)检查假设,并建立一个简约的模型。

(6)估计参数,计算相关的误差范围。

实际上,以上过程的目的就是加强数据分析师对数据的敏感性,让他不仅仅知道数据中的数字是什么,还明白数据中缺少了什么。为了达到这一目的,我们可以通过统计学的图形将数据以更加直观的形式展现到我们眼前。举一个例子,如图1-2所示。

图1-2 数据图

从上图中,我们首先挑选X1与Y1这两列具体分析,然后根据平均数的定义,可以得到以下数据:平均数X1=9.0、平均数Y1=7.5;之后取X2与Y2分析,可以得到平均数X2=9.0、平均数Y2=7.5;取X3与Y3分析,可以得到平均数X3=9.0、平均数Y3=7.5;最后取X4与Y4分析,可以得到平均数X4=9.0、平均数Y4=7.5。

单从数据上看,这四组数据似乎并没有什么区别。但假如将其用图表的形式展示出来,我们就能发现这其中的区别。如图1-3所示。

图1-3 四组数据的关联图

从这四组关联图中,我们可以非常容易地得出以下几点结论:

数据组X1、Y1具有明显的线性关系(数据均衡位于两侧)。

数据组X2、Y2是明显的二次相交。

数据组X3、Y3中存在着较为明显的异常数值。

数据组X4、Y4中数据整体关联度不高,并且较为糟糕的是某个数明显异常。

面对一堆数据,数据分析师首先要对数据进行整体分析,剔除异常、无关的数据,而这需要数据分析师结合图形看分布、看频率、看位置,对数据进行筛选。可用的数据分析图形有:直方图、趋势图、箱线图、正态分布图等。

当然,图形得出的只是大致的结论,之后仍然需要进行定性分析。假如图形展示的结果差异较小,那么就需要更进一步做定量分析。可用的分析方法有相关分析、回归分析、方差分析等。由于篇幅有限,在这里就不过多讨论分析图形与分析方法了。

1.1.3 验证性数据分析

验证性数据分析着重于对已有假设的证实或证伪。数据分析师可以通过数据分析工具对已有的假设模型进行验证。而数据分析师借助数据分析工具,能够更高效地分析数据。如图1-4所示。

图1-4 数据分析工具

目前市场上存在着众多的数据分析工具,但工具的上手难度并不一致。如上图1-4所示,数据分析工具分为五个层次,每个层次都有代表性的数据分析工具。

第一层次的代表工具就是数据分析中最普遍、最基础的微软Office软件中的Excel。Excel可以胜任大多数简单的数据分析工作,再加上其自带的诸多扩展功能,能够较为全面地完成各类数据分析工作。

当然,市场上除了微软Office软件中自带的Excel,其他企业也出品过类似Excel的电子表格工具,然而实用性十分一般。所以说,Excel可以被称为第一层次工具中的“第一神器”。

从第二层次开始,往上的工具都属于专业的数据分析工具。虽然Excel被称为“第一神器”,但其仅限于日常办公,对于深入地分析数据就显得力不从心了。在专业的数据分析工具中,首推IBM的SPSS工具,该工具包括了SPSS统计和SPSS MODELER,两种工具的学习难度都较低,因此,属于专业数据分析的入门级工具。

再向上就到了第三层次,这里有着诸如SAS、MATLAB、Python等专业工具,能够熟练运用其中的某一种软件是目前对专业数据分析师的基本要求。因此,一般的数据分析师招聘要求中,都有熟练掌握这些工具中的某一项一条。

第四层次的工具属于查漏补缺的工具,例如C语言、Java等编程工具。熟练掌握这些工具的人员能够将相关数据分析的算法嵌入到工具和系统中去。当然,使用这类工具的要求更高。所以,这些工具又被称为“扫地僧”。

以上四个层次的工具都可以通过一台计算机完成任务,然而在实际的数据分析过程中,我们可能需要动用多台电脑完成任务,实现多台计算机联合分析。能够完成这项工作的工具就属于第五层次,例如Hadoop、Spark等高效的分布式数据分析工具。