1.1.5 结构风险最小化原则
推广性是机器学习的一个关键性能指标,在训练样本数目有限的情况下,经验风险最小化并不能代表实际风险最小化。统计学习理论指出,经验风险最小化原则下的学习机器的实际风险,由以下两部分组成:
式中,Remp(w)是训练样本的经验风险;为置信风险Φ;N为训练样本数量;h为函数集的VC维。当0<η<1时,实际风险R(w)与经验风险Remp(w)以概率1-η满足式(1.1.7)中的关系,概率1-η称为置信水平。
由式(1.1.7)可知,置信风险Φ不但受置信水平1-η的影响,同时也受函数集的VC维h和样本数N的影响。且随着N/h的增加,置信风险Φ单调减小。
经验风险与期望风险之间的差距,即置信风险Φ(N/h)反映了根据经验风险最小化原则得到的学习机器的推广能力,称为推广性的界。式(1.1.7)表明,当N/h较小时,置信风险Φ(N/h)较大,此时,利用经验风险代替实际风险造成的误差很大,用经验风险最小化取得的最优解的推广性也很差。所以,在机器学习过程中,不但要使经验风险最小,还要利用VC维来尽可能地缩小置信风险,这样才能取得较小的实际风险,对未知样本的推广性也更好。
为了兼顾VC维和置信风险,引进了结构风险最小化原则。
结构风险最小化原则是寻找一个假设f,使式(1.1.7)右端所示的结构风险达到最小值。
设N个训练样本为(x(1),y(1)),(x(2),y(2)),…,(x(N),y(N)),选择一系列嵌套的假设集F1⊂F2⊂…⊂FN,在对应的每个FN中找出一个假设f(N)使经验风险最小,这样可以得到一系列的假设f(1),f(2),…,f(N)。由于FN的VC维是递增的,即h(1)<h(2)<…<h(N),所以置信风险Φ也是递增的,即随着N的增大而增大。而经验风险则随着N的增 大 而 减 小,即Remp[f(1)]>Remp[f(2)]>…>Remp[f(N)]。因为假设集FN是嵌套的,所以结构风险最小化原则就是寻找合适的N0,使置信风险和经验风险之和最小,并且得到相应的fN0。
结构风险最小化原则的示意图如图1.1.3所示。图中,假设集S1⊂S2⊂S3,其对应的VC维h1<h2<h3。该图很直观地表明,经验风险和置信风险是一对矛盾,S2对应于最佳的假设集子集,经验风险和置信风险在此时之和最小,对应的真实风险在此时也达到最小。
图1.1.3 结构风险最小化示意图
与经验风险最小化相比,结构风险最小化很明显更加合理,通过对经验风险和置信风险的折中,得到的结构风险更接近实际风险。而支持向量机就是基于结构风险最小化原则。