nlp - 如何确定用于文本聚类的 LDA（潜在狄利克雷分配）算法中的主题数？

Question

我正在使用 LDA 算法将许多文档聚集到不同的主题中。LDA 算法需要一个输入参数：主题数。我怎么能确定这个？

我正在使用 Reuter 语料库对我的解决方案进行基准测试。路透社语料库已准备好主题编号。聚类路透社文本时是否应该输入相同的主题编号？并将我的聚类结果与路透社的比较？

但是在生产中，在我实际基于主题进行聚类之前，我怎么知道主题的数量。这有点像鸡蛋问题。

score 1 · Accepted Answer

解决此问题的一种方法是通过 k 手段。通过剪影（或肘部曲线，但我想这需要人工干预），您可以获得最佳数量的集群。您可以将此数字用作主题数。

1 回答 1