上QQ阅读APP看书,第一时间看更新
2.1 经典决策树应用的一般流程
经典决策树算法诞生在20世纪90年代之前,那时网络环境还不发达,所处理的样本数据集主要是小规模数据,特征数并不多,因此数据的特征工程并不必要。当时的主要任务是处理一些特征数据的缺失,针对分类数据和连续数据进行区别化处理以及相互转换,包括连续数据的离散化等。
获得规整的样本数据集之后,就需要利用各类决策树算法进行决策树模型的构建。决策树算法的差异主要体现在选择特征属性的策略、选择属性分割点策略、不同类型特征属性的处理方法、如何终止决策树的构建过程、如何优化模型以避免过拟合、如何降低决策树模型的复杂度等方面。本章介绍的三类决策树算法在这些方面都存在差异。
获得决策树模型之后,接下来要利用这些模型对未知样本数据进行推理和预测。在这个过程中,为降低模型复杂度或提高模型泛化能力,需要进行剪枝优化等处理。
本节先介绍缺失值的处理和连续数值属性的离散化处理方法,决策树构建通过三种经典算法的具体介绍展开,之后再介绍几种经典的决策树剪枝策略。