0

我正在研究一种算法,该算法对 kmeans 聚类进行猜测。我想我正在寻找一个可以用作比较的数据集,或者可能是一些集群数量“已知”的数据集,这样我就可以看到我的算法在猜测 K 时的表现如何。

4

3 回答 3

0

我会首先检查 UCI 存储库中的数据集: http: //archive.ics.uci.edu/ml/datasets.html? format=&task=clu&att=&area=&numAtt=&numIns=&type=&sort=nameUp&view=table

我相信那里有一些带有标签的东西。

有论文中经常使用的文本聚类数据集作为baseline,比如20newsgroups:http: //qwone.com/~jason/20Newsgroups/

另一种很好的方法(我的论文主席一直提倡的方法)是构建您自己的小型示例数据集。解决此问题的最佳方法是从小处着手,尝试仅使用两个或三个可以以图形方式表示的变量,然后自己标记集群。

小型自制数据集的额外好处是您知道答案,并且非常适合调试。

于 2013-07-31T19:45:17.600 回答
0

由于您专注于k-means,您是否考虑过使用各种度量(Silhouette、Davies–Bouldin 等)来找到最优的k

实际上,“最优”k 可能不是一个好的选择。大多数情况下,人们确实想选择一个更大的 k,然后更详细地分析生成的集群/原型,以从多个 k-means 分区中构建集群。

于 2013-08-01T08:14:50.310 回答
0

鸢尾花数据集是一个很好的起点,聚类效果很好。

在这里下载

于 2013-08-01T08:50:29.860 回答