3

我已经有一个 tf-idf 矩阵,其中包含术语行和文档列。现在我想用给定的术语文档矩阵训练一个 LDA 模型。第一步似乎是使用gensim.matutils.Dense2Corpus将矩阵转换为语料库格式。但是如何构造id2word参数呢?我有术语列表(#terms==#rows),但我不知道字典的格式,所以我无法从gensim.corpora.Dictionary.load_from_text. 有什么建议么?谢谢你。

4

1 回答 1

1

id2word必须将每个 id(整数)映射到术语(字符串)。

换句话说,它必须支持id2word[123] == 'koala'.

一个普通的 Pythondict是最简单的选择。

于 2014-12-09T12:15:19.853 回答