c++ - 使用 k-最近邻在一类中有多少样本是最优的？

Question

我已经在我的系统中实现了 k 最近算法。它由 26 个类组成，每个类 100 个样本。在我的例子中，K=7，为了得到最好的分类结果完全是反复试验。

我知道应该明智地选择 K 以减少分类上的噪音。但是样本数量呢？是否有诸如“样本越多结果越好”之类的一般规则？它取决于什么？

感谢您的所有回复。

score 0 · Accepted Answer

您可以尝试考虑生成数据的任何潜在机制，或者您对该问题的任何背景知识，这可能会让您了解噪声的相对大小和真正的潜在变化。例如，从位置预测最喜欢的运动队我希望比预测最喜欢的运动有更多的变化，所以会使用更小的 k。但是，除了使用交叉验证外，我不知道太多的一般指导。

1 回答 1