1.1.3 数据分析的发展方向
数据分析的发展方向有如下两个:
● 由“问题导向”的推论统计和假设检验(Hypothesis Testing)。
● 由“数据驱动”的数据挖掘(Data Mining)或知识发现(Knowledge Discovery)。
推论统计其实就是统计学中的量化研究方法,即人们根据观察或专业知识对一个问题提出虚无假设与对立假设,先证明虚无假设正确,再依照对立假设进行推论。
t-检验、Z-检验、卡方检验都属于假设检验。假设检验是一种由上而下的研究方法,换句话说,必须先有假设,才能有检验。在真实世界中,提出假设本身是一件困难的工作。另一个困难点在于很多假设是由具有专业知识背景的科学家提出的,难免会掺杂主观的想法,具有一定的不可控性。假设检验是问题导向的,人们可以尝试去证实或举反证来验证预设的想法。
数据挖掘是另一种由下而上(由数据反过来观察结果)的数据驱动方法。在没有任何假设的情况下,人们可以直接通过数据观察归纳出某些重要的特性。不同于必须要先假设的推论统计,数据挖掘仅通过数据由下而上得到结果。数据挖掘不需要过多的事前假设,也不会有主观意念的影响。
不过数据挖掘就像是大海捞针一样,人们需要在茫茫的数据中找寻特性。可想而知,这种方法需要大量的计算与储存资源。这也是数据挖掘过去一直无法成为主流研究方向的主要原因,但随着计算机科学的发展,更快的计算资源与更大的储存空间让数据挖掘逐渐受到重视。数据挖掘是数据驱动的,人们可以从现有的数据中分析出一些未知的事情。机器学习是数据挖掘的一种方法,这两个名词现在经常混用。
● 统计分析:利用数学模型学习数据,找出一组参数来“描述”数据,目标是找出数据背后的规律,解释数据间的关系。
● 机器学习:通过抽象模型学习拟合数据,着重在学习模型的最佳化过程,目标是达到最好的预测效果。
● 数据挖掘:强调演算方法或步骤,目标是找出数据背后的价值。人们通常会根据所需要的数据选择适合的方法。
数据挖掘与统计分析这两种方法的目标是相近的,只是使用背景有所不同。数据挖掘是计算机领域发展的议题;统计分析是统计学所探讨的领域。无论是数据挖掘,还是统计分析,它们都有一个共同的目标—从数据中学习。这两种方法的目的都是使人们通过处理数据的过程,对数据有更进一步的了解与认识。数据挖掘、大数据、统计学三者的关系如图1.2所示。
图1.2 数据挖掘、大数据、统计学三者的关系
统计方法是人们利用方程描述分类问题,为数据找出一个分割线,将结果分成两类的方法。然而,人们利用机器学习的方法找出来的是一圈一圈的等曲线,看起来似乎可以得到更广泛的结果,而不只是简单的分类问题。机器学习是由人工智慧发展而来的领域,通过非规则的方法学习数据分布的关系。统计模型是统计学中描述自变量(特征栏位)与因变量(目标栏位)的关系的模型。统计模型是基于严格的假说限制进行统计检验的(称为假设检验)。假设检验与机器学习方法的不同之处在于机器学习方法是在无假说的情况下对数据进行计算的算法。
基于假设检验的发展,统计模型能找出更贴近现有数据的趋势。然而,预测的目的是找出“未来数据”或所有数据,但假设会使得数据太贴近现有数据(在机器学习中称为过拟和)。严格的假设是统计学习的一把“双刃剑”,就像数据分析中流传的一句话所说的那样:预测模型中较小的假设,预测能力较强(The lesser assumptions in a predictive model,higher will be the predictive power)。
总的来说,数据分析的前身其实就是统计学,随着数据累积才有了大数据,带动了演算法的发展,也就是现在的机器学习与深度学习。现今,数据分析技术正在发展的浪潮上,数据分析的终极目标是利用数据与算法打造一个更智慧的系统,即人工智能。