全部,
这是对我在此线程中回复的内容的重新发布。尝试在 gensim 中打印 LSI 主题时,我得到了一些完全错误的结果。这是我的代码:
try:
from gensim import corpora, models
except ImportError as err:
print err
class LSI:
def topics(self, corpus):
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
dictionary = corpora.Dictionary(corpus)
lsi = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=5)
print lsi.show_topics()
if __name__ == '__main__':
data = '../data/data.txt'
corpus = corpora.textcorpus.TextCorpus(data)
LSI().topics(corpus)
这会将以下内容打印到控制台。
-0.804*"(5, 1)" + -0.246*"(856, 1)" + -0.227*"(145, 1)" + ......
我希望能够打印出@2er0在这里所做的主题,但我得到了这样的结果。请参见下文并注意打印的第二个项目是一个元组,我不知道它来自哪里。data.txt 是一个包含多个段落的文本文件。就这些。
对此的任何想法都会很棒!亚当