1.3.2 机器学习的一些基本概念_机器学习教程（微课视频版）-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

1.3.2　机器学习的一些基本概念

对于以上讨论的元素，给出几个更专业化的名词：输入空间、输出空间、假设空间。

输入空间：可包含所研究对象的特征向量的空间。例如，特征向量x是十维的实向量，则该输入空间是全部的十维实向量空间，该输入空间可包含的对象是无穷的，是无限集合。例如，在第4章讨论的朴素贝叶斯分类中，若x是1000维向量，每个分量只取0、1，这里特征向量能够表示的模式与1000位二进制数相同，即21000，尽管数量巨大，但这是一个有限集合。

输出空间：可以表示模型预测目标的空间。例如，垃圾邮件检测系统，其输出空间只有两个元素，即{垃圾邮件，正常邮件}，一个股票预测系统的输出空间则是一维实数域。

假设空间：能够表示从输入空间到输出空间映射关系的函数空间。例如，线性回归模型

其假设空间为将K维向量空间映射为一维实数空间的所有线性函数集合，这个集合有无穷多成员。另一个例子是二叉树结构的决策树（第7章），若树的深度是有限的，且每个节点是由逻辑变量划分的，则全体二叉树的集合是有限成员的。

在具体机器学习算法的介绍中，这些空间往往是自明的，故一般不会给予特别关注，但在机器学习理论中，对各空间往往是有预先假设的，例如假设空间是有限的还是无限的。

在机器学习中，要研究各种模型，有没有一个通用模型对所有问题是最佳的？答案是否定的。Wolp ert给出的没有免费午餐定理（no free lunch theorem）回答了这个问题。定理的结论：对于一个特殊问题，我们可以通过交叉验证这类方法实验地选择最好的模型，然而，没有一个最好的通用模型。正因为如此，需要发展各种不同类型的模型以适用于现实世界的各类数据。

另外一个思考是，对于解决一个实际问题来讲，并不是选择越先进、越复杂的模型越好，模型选择和系统实现的一条基本原理是Occam剃刀原理，该原理叙述为：除非必要，“实体”不应该随便增加，或设计者不应该选用比“必要”更加复杂的系统。这个问题也可表示为方法的“适宜性”，即在解决一个实际问题时，选择最适宜的模型。在机器学习过程中，若选择的模型过于复杂，要面对过拟合问题。

维数灾难是机器学习面对的另一个问题，在无约束的条件下，在高维情况若保持样本的稠密性，需要样本数目随着空间维度的增加而呈指数增加。一些机器学习模型复杂度也随着维度增加而快速增加。但当一个模型针对一类特定应用时，高维数据实际集中在高维空间的一个等效低维子空间上，这种情况下可缓解维数灾难的影响，但这与没有免费午餐定理类似，一个模型往往针对一个特定应用有效。