k近邻学习

（理学 | 计算机科学技术）

k近邻学习（k-nearest neighbor），理学-计算机科学技术-人工智能-机器学习-特征学习，机器学习领域中一种经典的监督学习算法。k近邻学习是一种常用的监督学习方法。它的工作机制如下：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k个邻居的信息来进行预测。通常，在分类任务中可使用投票法，即选择这k个样本中出现最多的类别标记作为预测结果；在回归任务中，可使用平均法，即将这k个样本的实值平均值作为预测结果；还可以基于距离远近进行加权平均或加权投票，距离越近的样本权重越大。对于同样的数据集，采用不同的距离度量方法和选择不同k值，都会导致截然不同的结果。当k=1时，对应的学习算法称为最近邻分类器。它虽然非常简单，但是可以证明其泛化错误率不超过贝叶斯最优分类器的错误率的两倍。