13

我关于计算机视觉的讲义提到,如果我们知道集群的标准差,可以提高 k-means 聚类算法的性能。怎么会这样?

我的想法是,我们可以使用标准偏差首先通过基于直方图的分割来得出更好的初始估计。你怎么看?谢谢你的帮助!

4

1 回答 1

16

你的讲师可能会记住Veenman 等人 2002 年的论文。基本思想是您设置每个集群中允许的最大方差。您从与数据点一样多的集群开始,然后通过以下方式“进化”集群

  • 如果结果集群的方差低于阈值,则合并相邻集群
  • 如果集群的方差高于阈值,则隔离“远”的元素
  • 或在相邻簇之间移动一些元素,如果它减少平方误差的总和

(这种演变充当全局优化过程,并防止初始分配集群意味着您在 k-means 中的不良后果)

总而言之,如果您知道方差,您就知道集群应该有多大的变化,因此更容易检测异常值(通常应该将其放入单独的集群中)。

于 2011-01-10T15:31:33.513 回答