我无法使用 Gensim 重现 word2vec 结果,并且某些结果没有意义。Gensim 是一个开源工具包,旨在使用高效的在线算法处理大型文本集合,包括Google 的 word2vec 算法的 python 实现。
我正在关注在线教程,但无法重现结果。(positive=['woman', 'king'],negative=['man']) 最相似的词应该是 'wenceslaus' 和 'queen'。相反,我得到了 'u'eleonore' 和 'iv'。“快”最相似的是慢,“快”是“mitsumi”。
有什么见解吗?以下是我的代码和结果:
>>> 从 gensim.models 导入 word2vec
>>> 导入日志
>>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
>>> 句子 = word2vec.Text8Corpus('\tmp\text8')
>>> 模型 = word2vec.Word2Vec(sentences, size=200)
>>> model.most_similar(positive=['woman', 'king'],negative=['man'], topn=2)
out[63]: [(u'eleonore', 0.5138808...), (u'iv',0.510519325...)]
>>> model.most_similar(positive=['fast'])
Out[64]: [(u'slow', 0.48932...), (u'paced', 0.46925...)...]
>>> model.most_similar(positive=['quick'],topn=1)
出 [65]: [(u'mitsumi', 0.48545..)]