我想使用carrot2 工作台对我的数据集进行聚类。我有一个带有文档的输入 xml 文件65536
。我正在使用 Lingo 聚类算法。
但是当我开始这个过程时,工作台会在几秒钟内返回结果,所有文档都在“其他主题”集群中。
我用较小的数据集检查了聚类,我得到了结果。
我想使用carrot2 工作台对我的数据集进行聚类。我有一个带有文档的输入 xml 文件65536
。我正在使用 Lingo 聚类算法。
但是当我开始这个过程时,工作台会在几秒钟内返回结果,所有文档都在“其他主题”集群中。
我用较小的数据集检查了聚类,我得到了结果。
Carrot2 Lingo 算法专为小型数据集而设计,最多可包含一千个左右的文档。对于更大的数据集,您可能想尝试 STC,它的扩展性更好。
不管算法如何,Carrot2 都会处理内存中的所有数据,因此它不会扩展到数百万个文档。例如,在后一种情况下,您可能希望查看Apache Mahout。