
上QQ阅读APP看书,第一时间看更新
第4章 KNN算法
KNN(K-Nearest Neighbor)最邻近分类算法是数据挖掘分类技术中最常见的算法之一,其指导思想是“近朱者赤,近墨者黑”,即由数据的邻居来推断出数据的类别,实现原理:为了判断未知样本的类别,以所有已知类别的样本作为参照,计算未知样本与所有已知样本的距离,从中选取与未知样本距离最近的k个已知样本,根据少数服从多数的投票法则(majority voting),将未知样本与k个最邻近样本中所属类别占比较多的归为一类。
本章将介绍KNN的基本原理和算法流程,并以手写体数据、鸢尾花数据和红酒品级数据作为案例来测试KNN算法的实用性,并分析该算法的优点和缺点。