performance - 评估文本/文档聚类算法的性能

翻译自：https://stackoverflow.com/questions/18863287 2013-09-18T03:18:09.063

224 次

2

我对集群相当陌生，并且知道有各种 API 可以提供集群算法和评估。

我的目标是对文档（文件的内容）进行聚类，然后为生成的聚类生成主题。

我目前已经为使用 LDA 的集群实现了 Apache Mahout，并为集群的主题生成实现了 Mallet。

我现在需要做的是我必须实现其他几个聚类算法，然后将它们与 LDA 进行比较，以评估每个算法的性能，以证明 LDA 是适合我工作的算法。

我已经用谷歌搜索并了解到评估聚类算法涉及根据需要使用不同标准的内部或外部评估。然而，不同的标准/评估指标将用于不同的算法。

就我而言，由于我使用不同的算法进行聚类，是否有任何合适的框架可供我使用，以便帮助我评估聚类结果的性能？或者这个解决方案有什么替代方案吗？

我必须使用 JAVA 语言来解决这个问题

0 回答 0