0

我正在做关于 LDA 主题建模的项目,我使用 gensim (python) 来做到这一点。我阅读了一些参考资料,它说要获得最佳模型主题,我们需要确定两个参数,即通过次数和主题数量。真的吗?对于传递的数量,我们将看到传递稳定的点,对于主题的数量,我们将看到哪个主题具有最低值。

num_topics = 10
chunksize = 2000
passes = 20
iterations = 400
eval_every = None 

是否有必要使用 gensim 库中的所有参数?

4

1 回答 1

0

好的 LDA 模型主要取决于主题的数量。通过次数越多,主题模型就越准确(训练所需的时间也就越长)。

当然,不必使用所有参数。大多数情况下,您只会传递所需的参数。要找到最佳主题数,您可以获取 c_v 连贯性值并找到给定网格上的最高连贯性。通常,连贯性是比困惑度更好的度量标准,因为它更符合人类注释者。

于 2020-04-10T07:06:43.557 回答