1.2 机器学习分类
机器学习可以分为以下四种类型:
·监督学习;
·无监督学习;
·半监督学习;
·强化学习。
监督学习(supervised learning)常常运用于预测分析。在本章下一个小节中,我们将举例展示如何运用回归模型来预测工资水平。在第3章中,我们将运用一个类似但更复杂的模型来展示监督学习在预测房价中的作用。我们通过这两个例子来区分监督学习在连续变量(比如个人工资水平或房价)预测和分类预测中的运用。分类模型在机器学习中也很常见,比如我们后面将看到一个实际的机器学习运用场景,即运用机器学习将潜在借贷者进行信用分级以便做出借贷决策。
无监督学习(unsupervised learning)常常用于描述数据的变化规律,主要目的不是用来预测某个特殊的变量,而是理解数据的发展和变化规律。假设一家公司准备向消费者推广一系列的产品,无监督学习可以通过研究消费者的历史消费数据,总结消费者的特征与规律,这反过来又会影响产品广告方式的选择。我们将在第2章中介绍无监督学习的常用模型——聚类模型。
在监督学习中,数据可以分为两大类——标签和特征。所谓标签是指预测的目标值,而特征则是用于预测的特征数据。例如,如果我们需要预测房价,特征可以包含房屋面积、卧室个数、卫生间个数、车库大小、地下室是否完工等,而房价则是我们最终预测的目标值,这里的房价就是标签。在无监督学习中,我们同样需要用到特征,但不需要标签,因为无监督学习用于描述数据的规律,而不是进行预测。对于上述举例,我们可以用无监督学习来总结某些区域中房子的特征,而不是预测价格。依靠无监督学习,可以在同一个社区归纳出两种不同类型住房的特征,第一种类型的特征包含1 500~2 000英尺[1]的居住面积、3个房间以及1个车库;第二种类型则是5 000~6 000英尺的居住面积、6个房间以及2个车库。
接下来我们讨论半监督学习。顾名思义,半监督学习(semisupervised learning)是介于监督和无监督之间的一种机器学习方法。当我们在做预测分析时,我们常常既有标签数据,同时又有非标签数据,有时非标签数据往往被认为没有意义而被忽略,但事实可能不然。通过将非标签数据与标签数据混合在一起,我们可以进行聚类分析,从而更精确地实现我们的预测目的。例如,假设我们想通过诸如年龄、收入水平等特征,来预测客户是否会购买某种产品。进一步假设,我们有少量标签数据(如表示客户特征以及是否购买产品的数据)和更大数量的未标签数据(表示潜在客户特征,但不表示他们是否购买产品)。我们可以利用这些特征应用无监督学习对潜在客户进行聚类分析。想象下面这种简单的情形:
·在完整的数据集中有A和B两个聚类;
·标签数据中的购买者都对应于聚类A中的点,而标签数据中的非购买者都对应于聚类B中的点。
我们可以合理地将A类的所有个人归类为买家,B类的所有个人归类为非买家。
人类使用半监督学习来认识世界。想象一下,假如你不知道“猫”和“狗”的名字,但你很有观察力。你会注意到社区里有两组截然不同的家养宠物,最后有人指着这两种动物,告诉你一种是猫,另一种是狗。你不难使用半监督学习中的标签应用到你见过的所有其他动物身上。如果人类可以这种方式使用半监督学习,机器这样做也就不足为奇了。
我们要讨论的最后一类机器学习方法是强化学习(reinforcement learning),它涉及机器学习算法与环境交互,并做出一系列决策的情况,环境一般随着决策以不确定的方式进行变化。无人驾驶汽车使用的就是强化学习算法。强化学习算法也是前面提到的,用于围棋和国际象棋的程序的基础,它们也被金融领域的一些算法交易策略所使用。我们将在第7章中讨论强化学习。
[1] 1 英尺=0.304 8 米。——译者注