我对槌子比较陌生,需要知道:-槌子产生的每个主题中的单词是否以某种方式排序?- 如果是这样,主题列表中的排序(即)是第一个在整个语料库中分布最高的排序(即)是什么?
谢谢!
我对槌子比较陌生,需要知道:-槌子产生的每个主题中的单词是否以某种方式排序?- 如果是这样,主题列表中的排序(即)是第一个在整个语料库中分布最高的排序(即)是什么?
谢谢!
它们是根据训练中的概率进行排名的,即第一个词最有可能出现在这个主题中,第二个不太可能出现,第三个不太可能,依此类推。这些与词频没有直接关系,尽管这些词肯定与最高的 tfidf 权重更有可能是最可能的。此外,Gibbs 抽样与单词在主题中的排名方式有很大关系——由于抽样的随机性,您可以获得主题内单词的完全不同的概率。例如,尝试保存模型,然后使用 --input-model 选项重新训练 - 主题看起来非常相似但不一样。
也就是说,如果您需要查看语料库中与 LDA 无关的术语的实际权重,您可以使用 Python 中的 NLTK 之类的东西来检查频率分布,也可以使用 sklearn 之类的东西来检查 TFIDF 以获得更有意义的权重分布。