0

我想使用carrot2 工作台对我的数据集进行聚类。我有一个带有文档的输入 xml 文件65536。我正在使用 Lingo 聚类算法。

但是当我开始这个过程时,工作台会在几秒钟内返回结果,所有文档都在“其他主题”集群中。

我用较小的数据集检查了聚类,我得到了结果。

4

1 回答 1

0

Carrot2 Lingo 算法专为小型数据集而设计,最多可包含一千个左右的文档。对于更大的数据集,您可能想尝试 STC,它的扩展性更好。

不管算法如何,Carrot2 都会处理内存中的所有数据,因此它不会扩展到数百万个文档。例如,在后一种情况下,您可能希望查看Apache Mahout

于 2015-03-11T15:58:11.573 回答