machine-learning - 聚类基线比较，KMeans

Question

我正在研究一种算法，该算法对 kmeans 聚类进行猜测。我想我正在寻找一个可以用作比较的数据集，或者可能是一些集群数量“已知”的数据集，这样我就可以看到我的算法在猜测 K 时的表现如何。

score 0 · Accepted Answer

我相信那里有一些带有标签的东西。

有论文中经常使用的文本聚类数据集作为baseline，比如20newsgroups：http: //qwone.com/~jason/20Newsgroups/

另一种很好的方法（我的论文主席一直提倡的方法）是构建您自己的小型示例数据集。解决此问题的最佳方法是从小处着手，尝试仅使用两个或三个可以以图形方式表示的变量，然后自己标记集群。

小型自制数据集的额外好处是您知道答案，并且非常适合调试。

score 0 · Accepted Answer

由于您专注于k-means，您是否考虑过使用各种度量（Silhouette、Davies–Bouldin 等）来找到最优的k？

实际上，“最优”k 可能不是一个好的选择。大多数情况下，人们确实想选择一个更大的 k，然后更详细地分析生成的集群/原型，以从多个 k-means 分区中构建集群。

score 0 · Accepted Answer

0

鸢尾花数据集是一个很好的起点，聚类效果很好。

于 2013-08-01T08:50:29.860 回答

3 回答 3