机器学习全解(R语言版)
上QQ阅读APP看书,第一时间看更新

1.1 机器学习的概念

机器学习是人工智能的一个分支科学,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科,是一门多领域交叉学科。通俗地讲,机器学习就是利用计算机来对人的学习行为进行实现,从而获得关键认知或预测未来。要理解机器学习,需要先了解传统的人工智能方法,它近似于形式逻辑中的三段论推理(包含大前提、小前提和结论三部分)。我们举个简单的物理学例子来说明。在物理学中,欧姆定律是指在同一电路中,通过某段导体的电流跟这段导体两端的电压成正比,跟这段导体的电阻成反比。简单地用公式来表达就是:I = U/R。其中,I表示电流,U表示电压,R表示电阻。如果我们已经知道了欧姆定律这个规则(大前提),又知道电压和电阻分别为3V和3Ω(小前提),那么我们就可以获得电流I = 3V/3Ω = 1A的结论(V、Ω、A分别为电压、电阻和电流的单位,中文称为伏特、欧姆和安培)。这个过程可以用图1-1表示。

图1-1 传统人工智能模式

我们当前所讨论的机器学习,则是从数据出发去获知规则的过程。在获得规则之后,再通过这个规则对新的数据进行预测。还以欧姆定律为例,但是这次我们并不知道欧姆定律,我们只知道在同一电阻下,施加不同的电压,会产生不同的电流,如U=5V,I=5A;U=4V,I=4A;U=3V,I=3A。我们希望知道,当U=6V的时候,I应该是多少。这就是一个典型的机器学习问题。这个过程可以通过图1-2进行表示。总的来说,机器学习就是利用数据训练获得规则,然后再把规则应用到新场景(新数据)的过程。

图1-2 机器学习模式