2

我想要实现的只是找出给定集群中包含哪些输入点!?我有一个个人数据集,其中包含一些手动分组为 12 个集群的文档。

我知道如何使用 namedVector 类和其中一个转储程序(如 clusterdumper)来解释 kmenas 导致 mahout .7 的结果。使用 kmeans 驱动程序进行聚类后,创建了一个名为 clusteredPoints 的目录,其中包含聚类结果,使用 clusterDumper,您可以看到创建的聚类和每个聚类中的点。在下面的链接中有一个很好的解决方案: How to read Mahout clustering output

但是,正如我在标题中提到的,我希望能够解释 Streaming Kmeans 结果,这是 mahout .8 中的一个新功能。在此功能中,它使用 Centroid 类来保存数据点和每个集群种子。StreamingKMeans算法生成的结果只是一个由质心向量+每个簇的keys和weights构成的序列文件。在这个输出中,没有输入数据点的信息来了解它们在集群之间的分布。但是,我不可能对聚类的准确性有所了解。

顺便说一句,如何在聚类输出中获取这些信息?它没有实现,或者只是我没有找到并使用准备好的解决方案?如何分析 streamingKMeans 的结果?

谢谢。

4

0 回答 0