Gensim 是 Word2Vec 的优化 python 端口(参见http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/)
我目前正在使用这些向量:http ://clic.cimec.unitn.it/composes/semantic-vectors.html
我将使用 gensim 重新运行模型训练,因为他们的模型中有一些嘈杂的标记。所以我想知道什么是word2vec
in的一些等效参数gensim
他们使用的参数word2vec
是:
- 2 字上下文窗口,PMI 加权,无压缩,300K 维度
当我训练 Word2Vec 模型时,gensim 等价是什么?
是吗:
>>> model = Word2Vec(sentences, size=300000, window=2, min_count=5, workers=4)
gensim 中是否有 PMI 权重选项?
word2vec 中使用的默认 min_count 是多少?
word2vec 还有另一组参数,例如:
- 5 字上下文窗口,10 个负样本,二次抽样,400 维。
gensim中是否有负样本参数?
gensim中二次采样的参数等价是什么?