我有一个包含 178 个属性的数据集,其中包含 13 个属性。我将它们分成 2 组(100 和 78)进行训练和测试。
我想确定每个标记样本的 k 个最近邻居。如果样本的标签比 k 个最近邻的任何其他标签更常见,则将分类视为正确,否则,将分类视为错误。
这是我完全迷失的部分。
我看到您正在尝试理解 KNN 的概念。
这更容易理解。
一个对象通过其邻居的多数票进行分类,该对象被分配到其 k 个最近邻居中最常见的类别(k 是一个正整数,通常很小)。
查看 KNN 的 Wikipedia:http ://en.wikipedia.org/wiki/K-nearest_neighbor_algorithm
希望这可以帮助。