1

为了解释,假设我正在检查 9 个最近的邻居并对手写数字数据集进行分类。测试集中的第一个实例有五个最近的“4”类邻居和四个“9”类的邻居。第二个测试实例有八个“4”类邻居和一个“9”类邻居。显然,第二个测试实例被归类为“4”,比第一个测试实例具有更大的确定性。如何用函数表达这一点,以及如何考虑距离?

我也想将这个实现到其他分类器。对于任何类型的分类器,是否有机会使用具有此功能的 C/C++ 库?

4

2 回答 2

0

您应该尝试使用轮廓值和绘图。它在语言cluster包中可用。R

于 2014-07-08T07:26:47.773 回答
0

天真的答案:标准化计数以提供后验概率。使用加权计数,权重对应于相似性(距离的倒数)以考虑距离。

更好的主意:将内核密度估计视为更正式的版本。

于 2014-07-08T10:38:29.427 回答