6

我正在使用 Gensim 进行一些大规模的主题建模。我很难理解如何确定未见(非索引)文档的预测主题。例如:我有 2500 万个文档,我已将其转换为 LSA(和 LDA)空间中的向量。我现在想弄清楚一个新文档的主题,我们称之为 x。

根据 Gensim 文档,我可以使用:

topics = lsi[doc(x)]

其中 doc(x) 是将 x 转换为向量的函数。

然而,问题是上面的变量,topics,返回一个向量。如果我将 x 与其他文档进行比较,该向量很有用,因为它允许我找到它们之间的余弦相似度,但我实际上无法返回与 x 本身相关的特定单词。

我错过了什么,还是 Gensim 没有这种能力?

谢谢,

编辑

拉斯曼斯给出了答案。

我能够使用以下方法展示主题:

for t in topics:
    print lsi.show_topics(t[0])
4

2 回答 2

5

LSI 模型返回的向量[]实际上是(topic, weight)对的列表。您可以通过该方法检查主题LsiModel.show_topic

于 2012-07-13T15:36:32.647 回答
0

我能够使用以下方法展示主题:

对于主题中的 t:打印 lsi.show_topics(t[0])

只是想指出解决方案代码中的一个微小但重要的错误:您需要使用 show_topic() 函数而不是 show_topic**s**() 函数。

PS我知道这应该作为评论而不是答案发布,但我目前的声誉评分还不允许评论!

于 2014-05-17T16:43:02.970 回答