0

为了使用 gensim 的潜在语义索引方法,我想从一个小的“classique”示例开始,例如:

import logging, gensim, bz2
id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt')
mm = gensim.corpora.MmCorpus('wiki_en_tfidf.mm')
lsi = gensim.models.lsimodel.LsiModel(corpus=mm, id2word=id2word, num_topics=400)
etc..

我的问题是:如何获得语料库迭代器'wiki_en_tfidf.mm'?我必须从某个地方下载它吗?我在互联网上搜索过,但没有找到任何东西。请帮忙 ?

4

1 回答 1

0

搜索结果的第一页包含指向以下内容的链接:

https://radimrehurek.com/gensim/wiki.html

上面写着“首先让我们加载在上面第二步中创建的语料库迭代器和字典。”

第 2 步是

  1. 将文章转换为纯文本(处理 Wiki 标记)并将结果存储为稀疏 TF-IDF 向量。在 Python 中,这很容易即时完成,我们甚至不需要将整个存档解压缩到磁盘。gensim 中有一个脚本可以做到这一点,运行:

    $ python -m gensim.scripts.make_wiki

于 2017-05-09T13:48:09.800 回答