1.1.5 结构风险最小化原则_智能计算：原理与实践-QQ阅读男生玄幻网

上QQ阅读APP看书，第一时间看更新

1.1.5 结构风险最小化原则

推广性是机器学习的一个关键性能指标，在训练样本数目有限的情况下，经验风险最小化并不能代表实际风险最小化。统计学习理论指出，经验风险最小化原则下的学习机器的实际风险，由以下两部分组成：

式中，R_emp（w）是训练样本的经验风险；为置信风险Φ；N为训练样本数量；h为函数集的VC维。当0＜η＜1时，实际风险R（w）与经验风险R_emp（w）以概率1-η满足式（1.1.7）中的关系，概率1-η称为置信水平。

由式（1.1.7）可知，置信风险Φ不但受置信水平1-η的影响，同时也受函数集的VC维h和样本数N的影响。且随着N/h的增加，置信风险Φ单调减小。

经验风险与期望风险之间的差距，即置信风险Φ（N/h）反映了根据经验风险最小化原则得到的学习机器的推广能力，称为推广性的界。式（1.1.7）表明，当N/h较小时，置信风险Φ（N/h）较大，此时，利用经验风险代替实际风险造成的误差很大，用经验风险最小化取得的最优解的推广性也很差。所以，在机器学习过程中，不但要使经验风险最小，还要利用VC维来尽可能地缩小置信风险，这样才能取得较小的实际风险，对未知样本的推广性也更好。

为了兼顾VC维和置信风险，引进了结构风险最小化原则。

结构风险最小化原则是寻找一个假设f，使式（1.1.7）右端所示的结构风险达到最小值。

设N个训练样本为（x（1），y（1）），（x（2），y（2）），…，（x（N），y（N）），选择一系列嵌套的假设集F₁⊂F₂⊂…⊂F_N，在对应的每个F_N中找出一个假设f（N）使经验风险最小，这样可以得到一系列的假设f（1），f（2），…，f（N）。由于F_N的VC维是递增的，即h（1）＜h（2）＜…＜h（N），所以置信风险Φ也是递增的，即随着N的增大而增大。而经验风险则随着N的增大而减小，即R_emp[f（1）]＞R_emp[f（2）]＞…＞R_emp[f（N）]。因为假设集F_N是嵌套的，所以结构风险最小化原则就是寻找合适的N₀，使置信风险和经验风险之和最小，并且得到相应的f_N₀。

结构风险最小化原则的示意图如图1.1.3所示。图中，假设集S₁⊂S₂⊂S₃，其对应的VC维h₁＜h₂＜h₃。该图很直观地表明，经验风险和置信风险是一对矛盾，S₂对应于最佳的假设集子集，经验风险和置信风险在此时之和最小，对应的真实风险在此时也达到最小。

图1.1.3 结构风险最小化示意图

与经验风险最小化相比，结构风险最小化很明显更加合理，通过对经验风险和置信风险的折中，得到的结构风险更接近实际风险。而支持向量机就是基于结构风险最小化原则。