17

我正在尝试gensim使用意大利维基百科“ http://dumps.wikimedia.org/itwiki/latest/itwiki-latest-pages-articles.xml.bz2 ”来训练 word2vec 模型

但是,我不确定这个语料库的最佳预处理是什么。

gensim模型接受标记化句子的列表。我的第一次尝试是只使用WikipediaCorpus来自gensim. 这会提取每篇文章,删除标点符号并在空格上拆分单词。使用这个工具,每个句子都会对应一个完整的模型,我不确定这个事实对模型的影响。

在此之后,我使用默认参数训练模型。不幸的是,经过培训,我似乎无法获得非常有意义的相似之处。

维基百科语料库上最适合此任务的预处理是什么?(如果这个问题太宽泛,请通过指向相关教程/文章来帮助我)

这是我第一次试用的代码:

from gensim.corpora import WikiCorpus
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
corpus = WikiCorpus('itwiki-latest-pages-articles.xml.bz2',dictionary=False)
max_sentence = -1

def generate_lines():
    for index, text in enumerate(corpus.get_texts()):
        if index < max_sentence or max_sentence==-1:
            yield text
        else:
            break

from gensim.models.word2vec import BrownCorpus, Word2Vec
model = Word2Vec() 
model.build_vocab(generate_lines()) #This strangely builds a vocab of "only" 747904 words which is << than those reported in the literature 10M words
model.train(generate_lines(),chunksize=500)
4

2 回答 2

9

你的方法很好。

model.build_vocab(generate_lines()) #This strangely builds a vocab of "only" 747904 words which is << than those reported in the literature 10M words

这可能是因为修剪了不常用的单词(默认为min_count=5)。

为了加快计算速度,您可以考虑将预处理的文章“缓存”为一个普通.txt.gz文件,每行一个句子(文档),然后简单地使用word2vec.LineSentence语料库。这节省了在每次迭代时解析 bzipped wiki XML。

为什么 word2vec 不会为意大利语 wiki 产生“有意义的相似性”,我不知道。英文维基似乎工作正常。另请参见此处

于 2014-05-30T16:56:41.490 回答
4

我一直在做一个项目来按摩维基百科语料库并从中获取向量。我可能会很快生成意大利向量,但如果你想自己做,请查看: https ://github.com/idio/wiki2vec

于 2015-02-20T09:27:40.997 回答