1

我看到 pyLDAvis 在每个主题下可视化每个单词的显着性。

在此处输入图像描述

但是我们有办法提取每个主题下每个单词的显着性吗?或者如何直接使用 Gensim LDA 计算每个单词的显着性?

所以最后,我想得到一个熊猫数据框,一行代表一个单词,每一列代表每个主题,它的值代表相应主题下单词的显着性。

提前谢谢了。

4

1 回答 1

0

Gensim 的 LDA 支持对 Chuang 等人 (2012) 的这种特殊“显着性”计算没有开箱即用的支持。

不过,我怀疑模型.get_term_topics()和/或.get_topic_terms()方法是实现该计算的适当支持数据。特别是,这些方法中的一种或另一种可能会提供该p( w | t )术语,但需要对论文进行更深入的阅读才能确定。(我怀疑该P(t)术语可能需要对训练数据进行单独调查。)

从类文档:

https://radimrehurek.com/gensim/models/ldamodel.html#gensim.models.ldamodel.LdaModel.get_term_topics

返回相关主题表示为它们的 ID 和它们分配的概率对,按与给定单词的相关性排序。

https://radimrehurek.com/gensim/models/ldamodel.html#gensim.models.ldamodel.LdaModel.get_topic_terms

返回Word ID - 主题生成的最相关单词的概率对。

我以前没有遇到过这种特殊的“显着性”计算,但是如果它在 LDA 用户中很流行,或者具有潜在的一般用途,并且您知道如何计算它,那么它很可能是对 Gensim 项目的一个受欢迎的贡献- 特别是如果它可以是LdaModel.

于 2021-10-15T03:27:38.287 回答