algorithm - 改进 k-means 聚类

Question

我关于计算机视觉的讲义提到，如果我们知道集群的标准差，可以提高 k-means 聚类算法的性能。怎么会这样？

我的想法是，我们可以使用标准偏差首先通过基于直方图的分割来得出更好的初始估计。你怎么看？谢谢你的帮助！

score 16 · Accepted Answer

你的讲师可能会记住Veenman 等人 2002 年的论文。基本思想是您设置每个集群中允许的最大方差。您从与数据点一样多的集群开始，然后通过以下方式“进化”集群

（这种演变充当全局优化过程，并防止初始分配集群意味着您在 k-means 中的不良后果）

总而言之，如果您知道方差，您就知道集群应该有多大的变化，因此更容易检测异常值（通常应该将其放入单独的集群中）。

1 回答 1