machine-learning - 如何衡量 k 最近邻分类器给出的结果的可靠性？

Question

为了解释，假设我正在检查 9 个最近的邻居并对手写数字数据集进行分类。测试集中的第一个实例有五个最近的“4”类邻居和四个“9”类的邻居。第二个测试实例有八个“4”类邻居和一个“9”类邻居。显然，第二个测试实例被归类为“4”，比第一个测试实例具有更大的确定性。如何用函数表达这一点，以及如何考虑距离？

我也想将这个实现到其他分类器。对于任何类型的分类器，是否有机会使用具有此功能的 C/C++ 库？

score 0 · Accepted Answer

0

您应该尝试使用轮廓值和绘图。它在语言cluster包中可用。R

于 2014-07-08T07:26:47.773 回答

score 0 · Accepted Answer

天真的答案：标准化计数以提供后验概率。使用加权计数，权重对应于相似性（距离的倒数）以考虑距离。

更好的主意：将内核密度估计视为更正式的版本。

2 回答 2