现代决策树模型及其编程实践:从传统决策树到深度决策树
上QQ阅读APP看书,第一时间看更新

1.7 作为特征学习与决策融合的决策树

在机器学习和模式识别中,特征是被观察现象的一个单独的可测量的属性或数据,是指要对其进行分析或预测的所有独立样本所共有的属性或特性。只要对模型有用,任何属性都可以是一个特征。特征可以是原始样本数据的属性,也可以是从中学习或抽取的有用的结构表示。最初的原始特征集可能是冗余的,而且可能因太大而无法管理。因此,在机器学习和模式识别的许多应用中,初始步骤一般包括选择一个特征子集,或构建一个新的和缩小的特征集,以方便学习,并提高泛化和可解释性。

在模式识别、分类和回归中,选择信息量大、鉴别力强、独立的特征是有效算法的关键步骤。特征通常是数字特征,但在句法模式识别中也会用到结构特征,如字符串和图形。特征的概念与线性回归等统计技术中使用的解释变量的概念有关。

在字符识别中,特征可以包括沿水平和垂直方向计数黑色像素数的直方图、内孔数、笔画检测和许多其他特征。在语音识别中,用于识别音素的特征可以包括噪声比、声音的长度、相对功率、滤波器匹配和许多其他特征。在垃圾邮件检测算法中,特征可以包括是否存在某些邮件标题、邮件结构、语言、特定术语的频率、文本的语法正确性等。在计算机视觉中,有大量可能的特征,如边缘和对象。

提取或选择特征是艺术和科学的结合,使用领域知识从原始数据中提取特征的过程被称为特征工程。这些特征可以用来提高机器学习算法的性能。提取特征时需要对多种可能性进行实验,并将自动化技术与领域专家的直觉和知识相结合。将这个过程自动化就是特征学习,机器不仅使用特征进行学习,而且可以自己学习和表示特征。

特征可以来自原始数据的原始属性,也可以来自原始数据的衍生特征,这些衍生特征可以通过手工特征工程或特征表示学习方法获得。衍生特征来源于原始数据,但可能是原始数据蕴涵的底层的、低级的或更细粒度的特性,也可能是多个原始数据聚合出的特性。这些特征可能有助于挖掘原始数据蕴涵的信息,也可能有助于解释特征的不同作用和提升机器学习模型的可解释性。

如何有效利用这些特征是目前人工智能社区的一个研究热点。特征表示与决策树模型的结合,可以有效发挥决策树模型的可解释能力,同时提升决策树模型的预测精度。因此,深度学习决策树模型成为目前决策树发展的新阶段,本书第8章将对此进行介绍。