本章着眼于正确处理缺失值的有用技术。在将数据输入机器学习算法之前,必须确保对类别变量进行正确的编码。本章还讨论了如何将序数特征和标称特征的值映射成整数。
此外,我们简要讨论了L1正则化,它可以通过降低模型的复杂性来避免过拟合。用序列特征选择算法从数据集中选择有意义的特征来去除不相关的特征。
在下一章中,我们将了解另外一种有用的降维方法:特征提取。它可以将特征压缩到较低维的子空间,而不像特征选择那样需要完全去除特征。