问题是关于分类的 KNN 算法——训练样本的类标签是离散的。
假设训练集的n
点与我们即将分类的新模式相同,即从这些点到新观察点的距离为零(或<epsilon
)。这些相同的训练点可能具有不同的类标签。现在假设n < K
还有一些其他训练点是最近邻集合的一部分,但与新观测值的距离不为零。在这种情况下,我们如何将类标签分配给新点?
可能性很少,例如:
- 考虑所有 K 个(或更多,如果与最差的最近邻居有联系)邻居并进行多数投票
- 如果训练数据中有新点的“克隆”,则忽略具有非零距离的邻居,并仅对克隆进行多数投票
- 与 2 相同。但在训练数据中分配具有最高先验概率的类(在克隆中)
- ...
有任何想法吗?(参考也将不胜感激)