上QQ阅读APP看书,第一时间看更新
3.4 小结
在本章中,我们介绍了K最近邻算法的原理和它的使用方法,包括K最近邻分类和K最近邻回归,并且使用K最近邻算法帮助小C对酒的分类进行了分析。不过我们也看到,对于这个13维的数据集来说,K最近邻算法的表现,并不能用优异来形容。这也确实是K最近邻算法的一大软肋。
K最近邻算法可以说是一个非常经典而且原理十分容易理解的算法,作为第一个算法来进行学习是可以帮助大家在未来能够更好地理解其他的算法模型。不过K最近邻算法在实际使用当中会有很多问题,例如它需要对数据集认真地进行预处理、对规模超大的数据集拟合的时间较长、对高维数据集拟合欠佳,以及对于稀疏数据集束手无策等。所以在当前的各种常见的应用场景中,K最近邻算法的使用并不多见。
接下来,我们会开始学习同样经典,而且在高维数据集中表现良好的算法——广义线性模型。