深入浅出Python机器学习
上QQ阅读APP看书,第一时间看更新

4.1.3 线性模型的特点

在上面的内容中,我们使用的都是特征数只有1个的数据集。用于回归分析的线性模型在特征数为1的数据集中,是使用一条直线来进行预测分析,而当数据的特征数量达到2个时则是一个平面,而对于更多特征数量的数据集来说,则是一个高维度的超平面。

如果和K最近邻模型生成的预测进行比较的话,你会发现线性模型的预测方法是非常有局限性的——很多数据都没有体现在这条直线上。从某种意义上说,这是一个问题。因为使用线性模型的前提条件,是假设目标y是数据特征的线性组合。但需要特别注意的是,使用一维数据集进行验证会让我们有一点偏颇,而对于特征变量较多的数据集来说,线性模型就显得十分强大。尤其是,当训练数据集的特征变量大于数据点的数量的时候,线性模型可以对训练数据做出近乎完美的预测。

用于回归分析的线性模型也有很多种类。这些模型之间的区别在于如何从训练数据中确定模型参数wb,以及如何控制模型复杂度。下面的小节我们来看看几种回归分析中最流行的线性模型。