0

我正在使用 K-Means 和聚类研究 WEKA。
一般来说,我会检查项目数据集上的不同算法。
我无法决定我应该选择什么最佳 SSE/Clusters 比率。
理论上,当我增加集群时,SSE 会减少,但是直到哪里?
找到了一些 K = (n/2)^0.5 的手指规则,有人可以支持这个吗?

4

1 回答 1

0

请注意,Weka 没有很多集群。它主要是一个分类工具。

平方和是一个非常以 k-means 为中心的度量。不要费心将此度量与任何其他算法一起使用。这是过拟合:这是 k-means 优化的度量,所以它当然会最好(并且通过添加另一个集群,它将能够进一步改进这个度量,这不足为奇)。

如果要评估聚类的质量,最可靠(尽管也值得怀疑)的方法是使用标记数据集。

于 2013-04-23T08:05:47.967 回答