3

我正在使用 LDA 算法将许多文档聚集到不同的主题中。LDA 算法需要一个输入参数:主题数。我怎么能确定这个?

我正在使用 Reuter 语料库对我的解决方案进行基准测试。路透社语料库已准备好主题编号。聚类路透社文本时是否应该输入相同的主题编号?并将我的聚类结果与路透社的比较?

但是在生产中,在我实际基于主题进行聚类之前,我怎么知道主题的数量。这有点像鸡蛋问题。

4

1 回答 1

1

解决此问题的一种方法是通过 k 手段。通过剪影(或肘部曲线,但我想这需要人工干预),您可以获得最佳数量的集群。您可以将此数字用作主题数。

于 2017-03-01T09:42:15.850 回答