0

我一直在使用 Mahout 来使用 XML 和 SOLR 索引输入对文本文档进行 k-means 聚类。

聚类似乎有效,并且类似的文档确实被放在同一个 k-means 聚类中,这很棒。

但是,每当我使用 ClusterDump (--outputFormat GRAPH_ML) 显示 graphml 输出时,我都会得到一个显示所有簇的图,但每个元素都显示在其父簇的圆周周围,这意味着每个元素与质心的半径大致相同。

我期望元素根据它们彼此的相似性分散在整个集群中(如 Mahout 示例中所示)。

有没有人看到他们的 Mahout k-means 集群有类似的东西?我自己试图深入了解这一点,但任何提示或建议都会有很大帮助。

非常感谢,

P莫里斯

4

1 回答 1

0

请您解释一下您如何成功地使用 mahout 和 kmeans 算法对 solr 索引输入进行聚类?

顺便说一句,当我对 .txt 文件进行聚类时,我的输出(clusters_dump)如下所示:

CL-0{n=0 c=[0:1.000, 1:1.000, 2:3.162, 3:1.000, 4:4.796, 6:1.000, 7:1.000, 8:1.000, 9:1.000, 10:1.000, 11:1.000, 12:4.690, 14:1.000, 15:11.446, 16:4.359] r=[]}

CL-1{n=0 c=[0:1.000, 1:1.000, 2:3.162, 3:1.000, 6:1.000, 7:1.000, 8:1.000, 9:1.000, 10:1.000, 11:1.000, 14:1.000, 15:11.446] r=[]}

CL-2{n=0 c=[4:1.000, 12:1.000, 13:8.315, 16:1.000] r=[]}

因为我指定了集群的数量 3。

于 2012-07-26T14:32:51.427 回答