cluster-computing - Mahout ClusterDump - 显示 graphml 输出时的奇怪结果

Question

我一直在使用 Mahout 来使用 XML 和 SOLR 索引输入对文本文档进行 k-means 聚类。

聚类似乎有效，并且类似的文档确实被放在同一个 k-means 聚类中，这很棒。

但是，每当我使用 ClusterDump (--outputFormat GRAPH_ML) 显示 graphml 输出时，我都会得到一个显示所有簇的图，但每个元素都显示在其父簇的圆周周围，这意味着每个元素与质心的半径大致相同。

我期望元素根据它们彼此的相似性分散在整个集群中（如 Mahout 示例中所示）。

有没有人看到他们的 Mahout k-means 集群有类似的东西？我自己试图深入了解这一点，但任何提示或建议都会有很大帮助。

非常感谢，

P莫里斯

score 0 · Accepted Answer

请您解释一下您如何成功地使用 mahout 和 kmeans 算法对 solr 索引输入进行聚类？

顺便说一句，当我对 .txt 文件进行聚类时，我的输出（clusters_dump）如下所示：

CL-0{n=0 c=[0:1.000, 1:1.000, 2:3.162, 3:1.000, 4:4.796, 6:1.000, 7:1.000, 8:1.000, 9:1.000, 10:1.000, 11:1.000, 12:4.690, 14:1.000, 15:11.446, 16:4.359] r=[]}

CL-1{n=0 c=[0:1.000, 1:1.000, 2:3.162, 3:1.000, 6:1.000, 7:1.000, 8:1.000, 9:1.000, 10:1.000, 11:1.000, 14:1.000, 15:11.446] r=[]}

CL-2{n=0 c=[4:1.000, 12:1.000, 13:8.315, 16:1.000] r=[]}

因为我指定了集群的数量 3。

cluster-computing - Mahout ClusterDump - 显示 graphml 输出时的奇怪结果

1 回答 1

Related

Reference