3

Gensim 是 Word2Vec 的优化 python 端口(参见http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/

我目前正在使用这些向量:http ://clic.cimec.unitn.it/composes/semantic-vectors.html

我将使用 gensim 重新运行模型训练,因为他们的模型中有一些嘈杂的标记。所以我想知道什么是word2vecin的一些等效参数gensim

他们使用的参数word2vec是:

  • 2 字上下文窗口,PMI 加权,无压缩,300K 维度

当我训练 Word2Vec 模型时,gensim 等价是什么?

是吗:

>>> model = Word2Vec(sentences, size=300000, window=2, min_count=5, workers=4)

gensim 中是否有 PMI 权重选项?

word2vec 中使用的默认 min_count 是多少?

word2vec 还有另一组参数,例如:

  • 5 字上下文窗口,10 个负样本,二次抽样,400 维。

gensim中是否有负样本参数?

gensim中二次采样的参数等价是什么?

4

1 回答 1

3
  1. 您链接到的论文比较了来自多种方案的词嵌入,包括连续词袋 (CBOW)。CBOW 是 Gensim 的“word2vec”模型中实现的模型之一。该论文还讨论了使用各种加权方案从奇异值分解获得的词嵌入,其中一些涉及 PMI。SVD 和 word2vec 之间没有等价性,但是如果你想在 gensim 中进行 SVD,在自然语言处理中进行时称为“LSA”或“潜在语义分析”。

  2. min_count参数默认设置为 5,如下所示

  3. Negative Sampling 和 Hierarchical Softmax 是用于估计离散空间上的概率分布的两种近似推理方法(当正常的 softmax 计算量太大时使用)。Gensimword2vec实现了两者。它默认使用分层 softmax,但您可以通过将超参数设置negative为大于零来使用负采样。这也记录在 gensim 代码的注释

于 2015-05-11T05:20:29.410 回答