1.7 作为特征学习与决策融合的决策树_现代决策树模型及其编程实践：从传统决策树到深度决策树-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

1.7　作为特征学习与决策融合的决策树

在机器学习和模式识别中，特征是被观察现象的一个单独的可测量的属性或数据，是指要对其进行分析或预测的所有独立样本所共有的属性或特性。只要对模型有用，任何属性都可以是一个特征。特征可以是原始样本数据的属性，也可以是从中学习或抽取的有用的结构表示。最初的原始特征集可能是冗余的，而且可能因太大而无法管理。因此，在机器学习和模式识别的许多应用中，初始步骤一般包括选择一个特征子集，或构建一个新的和缩小的特征集，以方便学习，并提高泛化和可解释性。

在模式识别、分类和回归中，选择信息量大、鉴别力强、独立的特征是有效算法的关键步骤。特征通常是数字特征，但在句法模式识别中也会用到结构特征，如字符串和图形。特征的概念与线性回归等统计技术中使用的解释变量的概念有关。

在字符识别中，特征可以包括沿水平和垂直方向计数黑色像素数的直方图、内孔数、笔画检测和许多其他特征。在语音识别中，用于识别音素的特征可以包括噪声比、声音的长度、相对功率、滤波器匹配和许多其他特征。在垃圾邮件检测算法中，特征可以包括是否存在某些邮件标题、邮件结构、语言、特定术语的频率、文本的语法正确性等。在计算机视觉中，有大量可能的特征，如边缘和对象。

提取或选择特征是艺术和科学的结合，使用领域知识从原始数据中提取特征的过程被称为特征工程。这些特征可以用来提高机器学习算法的性能。提取特征时需要对多种可能性进行实验，并将自动化技术与领域专家的直觉和知识相结合。将这个过程自动化就是特征学习，机器不仅使用特征进行学习，而且可以自己学习和表示特征。

特征可以来自原始数据的原始属性，也可以来自原始数据的衍生特征，这些衍生特征可以通过手工特征工程或特征表示学习方法获得。衍生特征来源于原始数据，但可能是原始数据蕴涵的底层的、低级的或更细粒度的特性，也可能是多个原始数据聚合出的特性。这些特征可能有助于挖掘原始数据蕴涵的信息，也可能有助于解释特征的不同作用和提升机器学习模型的可解释性。

如何有效利用这些特征是目前人工智能社区的一个研究热点。特征表示与决策树模型的结合，可以有效发挥决策树模型的可解释能力，同时提升决策树模型的预测精度。因此，深度学习决策树模型成为目前决策树发展的新阶段，本书第8章将对此进行介绍。