我正在使用 scikit-learn 并试验 Kmeans。它的速度很快,但需要集群数量作为参数。我想尝试的是根据文档的数量自动计算集群的数量。
我之前使用的基于散列的近邻算法(ssdeep)可以根据距离获得相似性集群,如何自动获得 k 均值的集群大小。
KMeans(init='k-means++', n_clusters=cluster_count, n_init=10),
name="k-means++", data=data)
我想自动计算cluster_count,这可能吗?我的测试数据集是来自 20_newsgroup 的随机文件的集合,没有预先分类到 folder , single folder ,所以没有标签。