我正在使用 Gensim 进行一些大规模的主题建模。我很难理解如何确定未见(非索引)文档的预测主题。例如:我有 2500 万个文档,我已将其转换为 LSA(和 LDA)空间中的向量。我现在想弄清楚一个新文档的主题,我们称之为 x。
根据 Gensim 文档,我可以使用:
topics = lsi[doc(x)]
其中 doc(x) 是将 x 转换为向量的函数。
然而,问题是上面的变量,topics,返回一个向量。如果我将 x 与其他文档进行比较,该向量很有用,因为它允许我找到它们之间的余弦相似度,但我实际上无法返回与 x 本身相关的特定单词。
我错过了什么,还是 Gensim 没有这种能力?
谢谢,
编辑
拉斯曼斯给出了答案。
我能够使用以下方法展示主题:
for t in topics:
print lsi.show_topics(t[0])