1.6 深度学习为何如此成功
决定任何一种数据驱动过程能否成功的首要因素是搞清楚数据需要测量的是什么,以及应该如何测量。这就是为什么在机器学习中特征的选择和设计是如此重要。如前文所述,特征的选择和设计往往需要领域专家的参与,需要对数据进行统计分析,需要反复用不同的特征集合进行建模实验。因此,一个项目的大部分时间和资源可能都用在设计和准备数据上了,有时候甚至要花去整个项目预算的80%之多[24]。对于特征设计任务,深度学习相比于传统机器学习具有显著优势。在传统机器学习中,特征设计常常会耗费大量的人力。深度学习则另辟蹊径,直接从原始数据中自动学习用于解决问题的最有用的特征。
以人体体质指数(BMI)为例,BMI是人体体重(以千克为单位)与身高(以米为单位)平方之比。在医疗领域,BMI用于将人群分为偏瘦、正常、偏胖和肥胖四类。这样的分类方式有助于预测人们因肥胖而引起疾病(如糖尿病)的可能性,能够帮助医生进行相关的诊断。一般而言,人们的体重是随着身高的增加而增加的。然而,很多由体重引起的健康问题(如糖尿病)并不受身高的影响,而取决于人们与身高相近的人相比偏胖的程度。BMI考虑了人体身高对体重的影响,因而对于根据体重区分人们健康状况而言是一个有用的特征。BMI是由Adolphe Quetelet于18世纪手工设计出来的一种根据原始特征推算(或计算)出来的特征,其对应的原始特征是体重和身高。BMI很好地说明了推算出来的特征往往比原始特征更有用。
决定任何一种数据驱动过程能否成功的首要因素是搞清楚数据需要测量的是什么,以及应该如何测量。
如前所述,一个机器学习项目的很多时间和精力都用在了确定、设计能够有助于完成项目任务的派生特征上。深度学习的优势在于它能够自动从数据中学到有用的派生特征(本书的后续章节将会介绍它是如何做到这一点的)。事实上,在有足够大的数据集的前提下,已经证明深度学习能够非常有效地学习特征,深度学习模型已经比很多使用手工设计的特征的机器学习模型更精确。这也是为什么对于样本特征维度非常高(或者说特征的数量非常多)的问题深度学习非常有效。从技术上来说,包含大量特征的数据集被称为高维数据集。例如,如果对照片中的每一个像素使用一个特征来表示,这样的照片数据集就是一个高维数据集。对于复杂的高维问题,想要手工设计特征异常困难:可以想象一下人脸识别和机器翻译中手工设计特征所面临的挑战。因此,在这些复杂问题中,采用从大规模数据中自动学习特征的策略更有意义。同这样的自动学习有用特征的能力相关的是,深度学习还能学习输入与输出之间复杂的非线性映射。在第3章中,我们将介绍什么是非线性映射,而在第6章中,我们将介绍如何从数据中学习非线性映射。