上QQ阅读APP看书,第一时间看更新
1.1.4 机器学习的复杂度及其推广能力
在机器学习问题中,有时会刻意地追求小的训练误差而把学习机器设计得很复杂,但这往往并不能达到好的预测效果,并且会导致学习机器推广能力(学习机器的推广能力是指正确预测未来输出的能力)的下降。其中最典型的是“过学习”问题。
产生“过学习”问题的原因:一方面是学习机器设计得不合理,另一方面是学习样本的数目太少。所以,在有限样本情况下采用复杂的学习机器虽然容易使学习误差变小,但丧失了学习机器的推广能力。
在实际问题中,如何在学习机器的复杂性与推广能力之间取得折中,是学习机器能否达到期望的一个重要原因。在有限样本的情况下,要尽量使VC维小,不要采用过于复杂的分类器或者神经网络;在模型选择的过程中,虽然很多问题不是线性的,但由于样本数目有限,采用线性分类器往往可以取得很好的结果。