1.4 归纳偏好
必须注意到,当假设的表示形式选定后,也就隐含地为学习算法确定了所有假设的空间。这些假设是学习程序所能表示的,也是它能够学习的。通常情况下,当给定正确的训练样例且保证初始假设空间包含目标概念时,学习算法可以收敛到目标概念。如果要保证假设空间包含目标概念,一个明显的方法是扩大假设空间,使每个可能的假设都包含在内。在现实问题中,通常会面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的假设集合(Hypothesis Set),称为版本空间(Version Space)或变形空间,因为它包含了目标概念所有合理的变形。然而,对于一个具体的学习算法而言,它必须产生一个模型。这时,学习算法本身的偏好(Bias)就会起到关键的作用。机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好(Inductive Bias)。
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上等效的假设所迷惑,而无法产生确定的学习结果。这说明了归纳学习的一个基本属性:学习器如果不对目标概念的形式做预先的假定,从根本上就无法对未见实例进行分类。可以说,归纳偏好是学习器从训练样例中泛化并在推断新实例的分类过程中所采用的策略。归纳偏好可看作学习算法在对所有假设进行选择时的“价值观”。一种算法的有偏性越强,那么它的归纳能力就越强,可以分类更多的未见实例。
引导学习算法确立“正确”偏好的一个一般性原则是奥卡姆剃刀(Occam's Razor)原则,即优先选择拟合数据的最简单的假设。这就是说,当有多个假设与观察一致时,则选择最简单的那个。这里的“一致”是指假设能够正确分类训练样例集合D中的每一个样例,即对于,都有h(x)=c(x)。奥卡姆剃刀的一种解释是短假设基于简单的参数组合,因此其数量少于长假设的数量,所以找到一个短的但同时与训练数据拟合的假设的可能性较小。当然,奥卡姆剃刀并非是唯一可行的原则。
事实上,归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与本问题自身匹配,大多数时候直接决定了算法能否取得好的性能。此外,必须认识到,脱离具体的问题,空泛地谈论“什么学习算法更好”毫无意义。要谈论算法的相对优劣,必须要针对具体的学习问题。在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意。学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。