gensim - 从 Gensim LDA 或 pyLDAvis 中提取词显着性

Question

我看到 pyLDAvis 在每个主题下可视化每个单词的显着性。

但是我们有办法提取每个主题下每个单词的显着性吗？或者如何直接使用 Gensim LDA 计算每个单词的显着性？

所以最后，我想得到一个熊猫数据框，一行代表一个单词，每一列代表每个主题，它的值代表相应主题下单词的显着性。

提前谢谢了。

score 0 · Accepted Answer

Gensim 的 LDA 支持对 Chuang 等人 (2012) 的这种特殊“显着性”计算没有开箱即用的支持。

不过，我怀疑模型.get_term_topics()和/或.get_topic_terms()方法是实现该计算的适当支持数据。特别是，这些方法中的一种或另一种可能会提供该p( w | t )术语，但需要对论文进行更深入的阅读才能确定。（我怀疑该P(t)术语可能需要对训练数据进行单独调查。）

从类文档：

https://radimrehurek.com/gensim/models/ldamodel.html#gensim.models.ldamodel.LdaModel.get_term_topics

返回相关主题表示为它们的 ID 和它们分配的概率对，按与给定单词的相关性排序。

https://radimrehurek.com/gensim/models/ldamodel.html#gensim.models.ldamodel.LdaModel.get_topic_terms

返回Word ID - 主题生成的最相关单词的概率对。

我以前没有遇到过这种特殊的“显着性”计算，但是如果它在 LDA 用户中很流行，或者具有潜在的一般用途，并且您知道如何计算它，那么它很可能是对 Gensim 项目的一个受欢迎的贡献- 特别是如果它可以是LdaModel.

gensim - 从 Gensim LDA 或 pyLDAvis 中提取词显着性

1 回答 1

Related

Reference