python - 微调预训练的 word2vec 谷歌新闻

Question

我目前正在使用在 Google 新闻语料库上训练的 Word2Vec 模型（从这里开始）因为直到 2013 年才对新闻进行训练，所以我需要更新向量并根据 2013 年之后的新闻在词汇表中添加新单词。

假设我在 2013 年之后有一个新的新闻语料库。我可以重新训练、微调或更新 Google News Word2Vec 模型吗？可以使用 Gensim 完成吗？可以使用 FastText 完成吗？

score 3 · Accepted Answer

它做的事情和你想要的完全一样：这是链接的内容：

逐步训练分类模型或词向量模型。

./fasttext [监督 | 跳图 | cbow] -input train.data -inputModel training.model.bin -output re-trained [其他选项] -incr

-incr 代表增量训练。

在训练词嵌入时，可以每次从头开始使用所有数据，或者只使用新数据。对于分类，可以使用预训练的词嵌入对所有数据进行训练，或者只使用新的词嵌入，而不改变词嵌入。

增量训练实际上意味着，用我们之前获得的数据完成模型训练，然后用我们获得的新数据重新训练模型，而不是从头开始。

score 0 · Accepted Answer

是的你可以。我最近也在研究这个。

编辑：GloVe 在训练时需要计算和存储co-occurence矩阵在内存中的开销。训练word2vec相对容易

2 回答 2