python - 为 kmeans 自动计算 clustersize

翻译自：https://stackoverflow.com/questions/13684041 2012-12-03T13:15:20.690

1085 次

我正在使用 scikit-learn 并试验 Kmeans。它的速度很快，但需要集群数量作为参数。我想尝试的是根据文档的数量自动计算集群的数量。

我之前使用的基于散列的近邻算法（ssdeep）可以根据距离获得相似性集群，如何自动获得 k 均值的集群大小。

KMeans(init='k-means++', n_clusters=cluster_count, n_init=10),
          name="k-means++", data=data)

我想自动计算cluster_count，这可能吗？我的测试数据集是来自 20_newsgroup 的随机文件的集合，没有预先分类到 folder ， single folder ，所以没有标签。

0 回答 0