3

我目前正在使用在 Google 新闻语料库上训练的 Word2Vec 模型(从这里开始)因为直到 2013 年才对新闻进行训练,所以我需要更新向量并根据 2013 年之后的新闻在词汇表中添加新单词。

假设我在 2013 年之后有一个新的新闻语料库。我可以重新训练、微调或更新 Google News Word2Vec 模型吗?可以使用 Gensim 完成吗?可以使用 FastText 完成吗?

4

2 回答 2

3

你可以看看这个: https ://github.com/facebookresearch/fastText/pull/423

它做的事情和你想要的完全一样:这是链接的内容:

逐步训练分类模型或词向量模型。

./fasttext [监督 | 跳图 | cbow] -input train.data -inputModel training.model.bin -output re-trained [其他选项] -incr

-incr 代表增量训练。

在训练词嵌入时,可以每次从头开始使用所有数据,或者只使用新数据。对于分类,可以使用预训练的词嵌入对所有数据进行训练,或者只使用新的词嵌入,而不改变词嵌入。

增量训练实际上意味着,用我们之前获得的数据完成模型训练,然后用我们获得的新数据重新训练模型,而不是从头开始。

于 2018-06-18T12:58:23.517 回答
0

是的你可以。我最近也在研究这个。

编辑:GloVe 在训练时需要计算和存储co-occurence矩阵在内存中的开销。训练word2vec相对容易

于 2019-04-18T17:24:54.327 回答