lda - MALLET 主题中单词的排名

Question

我对槌子比较陌生，需要知道：-槌子产生的每个主题中的单词是否以某种方式排序？- 如果是这样，主题列表中的排序（即）是第一个在整个语料库中分布最高的排序（即）是什么？

谢谢！

score 4 · Accepted Answer

它们是根据训练中的概率进行排名的，即第一个词最有可能出现在这个主题中，第二个不太可能出现，第三个不太可能，依此类推。这些与词频没有直接关系，尽管这些词肯定与最高的 tfidf 权重更有可能是最可能的。此外，Gibbs 抽样与单词在主题中的排名方式有很大关系——由于抽样的随机性，您可以获得主题内单词的完全不同的概率。例如，尝试保存模型，然后使用 --input-model 选项重新训练 - 主题看起来非常相似但不一样。

也就是说，如果您需要查看语料库中与 LDA 无关的术语的实际权重，您可以使用 Python 中的 NLTK 之类的东西来检查频率分布，也可以使用 sklearn 之类的东西来检查 TFIDF 以获得更有意义的权重分布。

lda - MALLET 主题中单词的排名

1 回答 1

Related

Reference