Python机器学习算法与应用
上QQ阅读APP看书,第一时间看更新

1.4 机器学习的研究领域

机器学习是继专家系统之后人工智能应用的又一重要研究领域,也是人工智能和神经计算的核心研究课题之一。现有的计算机系统和人工智能系统没有什么学习能力,至多也只有非常有限的学习能力,因而不能满足科技和生产提出的新要求。对机器学习的讨论和机器学习研究的进展,必将促使人工智能和整个科学技术的进一步发展。

其实,机器学习跟模式识别、统计学习、数据挖掘、计算机视觉、语音识别、自然语言处理等领域有着很深的联系。从范围上来说,机器学习跟模式识别、统计学习、数据挖掘是类似的,同时,机器学习与其他领域的处理技术结合,形成了计算机视觉、语音识别、自然语言处理等交叉学科。因此,一般说数据挖掘时可以等同于说机器学习。同时,我们平常所说的机器学习应用应该是通用的,不仅仅局限在结构化数据,还有图像、音频等应用。在本节对机器学习这些相关领域的介绍将有助于我们理清机器学习的应用场景与研究范围,更好地理解后面的算法与应用层次。

1.模式识别

模式识别与机器学习的主要区别在于,前者是从工业界发展起来的概念,后者则主要源自计算机学科。在著名的Pattern Recognition And Machine Learning(《模式识别与机器学习》)这本书中,Christopher M. Bishop在开头是这样说的:“模式识别源自工业界,而机器学习来自于计算机学科”。不过,它们中的活动可以被视为同一个领域的两个方面。

2.数据挖掘

数据挖掘=机器学习+数据库。

数据挖掘(Data Mining又称为资料探勘、数据采矿)是数据库知识发现(Knowledge-Discovery in Databases,KDD)中的一个步骤。数据挖掘一般是指从大量数据中自动搜索隐藏于其中的有着特殊关系性(属于Association Rule Learning,即关联规则学习)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

3.统计学习

统计学习近似等于机器学习。统计学习是与机器学习高度重叠的一门学科。因为机器学习中的大多数方法来自统计学,甚至可以认为,统计学的发展促进机器学习的繁荣昌盛。例如,著名的支持向量机算法就源自统计学科。但是在某种程度上两者是有区别的:统计学习者重点关注的是统计模型的发展与优化,偏数学;机器学习者更关注的是能够解决问题,偏实践,因此会重点研究学习算法在计算机上执行的效率与准确性的提升。

4.计算机视觉

计算机视觉=图像处理+机器学习。

图像处理技术用于将图像处理为适合进入机器学习模型中的输入,机器学习则负责从图像中识别出相关的模式。计算机视觉相关的应用非常多,比如百度识图、手写字符识别、车牌识别等。

5.语音识别

语音识别=语音处理+机器学习。

语音识别就是音频处理技术与机器学习的结合。语音识别技术一般不会单独使用,而会结合自然语言处理的相关技术。目前的相关应用有苹果的语音助手Siri等。

6.自然语言处理

自然语言处理=文本处理+机器学习。

自然语言处理技术是让机器理解人类语言这个领域的一项技术。在自然语言处理技术中,大量使用了编译原理相关的技术,例如词法分析、语法分析等。除此之外,在理解层面,使用了语义理解、机器学习等技术。

7.回归算法

在大部分机器学习课程中,回归算法都是介绍的第一个算法。原因有两个:一是回归算法比较简单,介绍它可以让人平滑地从统计学迁移到机器学习中;二是回归算法是后面若干强大算法的基石。回归算法有两个重要的子类,即线性回归和逻辑回归。

8.神经网络

神经网络(也称为人工神经网络,ANN)算法是20世纪80年代机器学习界非常流行的算法,不过在90年代中途衰落。现在,携着“深度学习”之势,神经网络重装归来,重新成为最强大的机器学习算法之一。

在神经网络中,每个处理单元是一个逻辑回归模型。逻辑回归模型接收上层的输入,把模型的预测结果作为输出传输到下一个层次。通过这样的过程,神经网络可以完成非常复杂的非线性分类。

9.支持向量机(SVM)

支持向量机算法诞生于统计学习界,是在机器学习界大放光彩的经典算法。支持向量机算法从某种意义上来说是逻辑回归算法的强化:通过给予逻辑回归算法更严格的优化条件,支持向量机算法可以获得比逻辑回归更好的分类界线。

10.聚类算法

简单来说,聚类算法就是计算种群中的距离,根据距离的远近将数据划分为多个族群。聚类算法中最典型的代表是K-Means算法。训练数据都是不含分类标注的,算法的目的是通过训练推测出这些数据的分类标注。这类算法有一个统称,即无监督算法。

11.降维算法

降维算法也是一种无监督学习算法,其主要特征是将数据从高维降低到低维层次。在这里,维度表示的是数据的特征量大小。降维算法的主要作用是压缩数据与提升机器学习其他算法的效率。通过降维算法,可以将具有几千个特征的数据压缩至若干个特征。另外,降维算法的另一个好处是数据的可视化。降维算法的主要代表是PCA算法(主成分分析算法)。

12.推荐算法

推荐算法是目前业界非常火的一种算法,在电商界,如亚马逊、天猫、京东等得到了广泛的运用。推荐算法的主要特征是可以自动向用户推荐他们感兴趣的东西,从而增加购买率,提升效益。

13.其他算法

除了以上算法之外,机器学习界还有其他算法,如高斯判别、朴素贝叶斯、决策树等。机器学习界的算法众多。