0

我正在使用胡萝卜2 的 STC(后缀树聚类)算法对一堆文档进行聚类。默认情况下,算法形成的最大聚类数为16。有没有办法决定生成的集群数量?

下面是调用 STC 集群的代码。

ProcessingResult byDomainClusters = controller.process(documents, null, STCClusteringAlgorithm.class);
List<Cluster> clustersByDomain = byDomainClusters.getClusters();
ConsoleFormatter.displayClusters(clustersByDomain);
4

1 回答 1

1

要获得更多集群,请尝试增加maxClustersmaxBaseClusters参数的值。下面介绍如何在 Java 代码中传递参数值

但是,集群数量少也可能是由于您的输入数据的特征(文档太少?)造成的。要验证这一点,请尝试使用 Lingo 算法对数据进行聚类。

于 2017-10-12T07:37:39.080 回答