我一直在使用 Mahout 来使用 XML 和 SOLR 索引输入对文本文档进行 k-means 聚类。
聚类似乎有效,并且类似的文档确实被放在同一个 k-means 聚类中,这很棒。
但是,每当我使用 ClusterDump (--outputFormat GRAPH_ML) 显示 graphml 输出时,我都会得到一个显示所有簇的图,但每个元素都显示在其父簇的圆周周围,这意味着每个元素与质心的半径大致相同。
我期望元素根据它们彼此的相似性分散在整个集群中(如 Mahout 示例中所示)。
有没有人看到他们的 Mahout k-means 集群有类似的东西?我自己试图深入了解这一点,但任何提示或建议都会有很大帮助。
非常感谢,
P莫里斯