我目前正在使用在 Google 新闻语料库上训练的 Word2Vec 模型(从这里开始)因为直到 2013 年才对新闻进行训练,所以我需要更新向量并根据 2013 年之后的新闻在词汇表中添加新单词。
假设我在 2013 年之后有一个新的新闻语料库。我可以重新训练、微调或更新 Google News Word2Vec 模型吗?可以使用 Gensim 完成吗?可以使用 FastText 完成吗?
你可以看看这个: https ://github.com/facebookresearch/fastText/pull/423
它做的事情和你想要的完全一样:这是链接的内容:
逐步训练分类模型或词向量模型。
./fasttext [监督 | 跳图 | cbow] -input train.data -inputModel training.model.bin -output re-trained [其他选项] -incr
-incr 代表增量训练。
在训练词嵌入时,可以每次从头开始使用所有数据,或者只使用新数据。对于分类,可以使用预训练的词嵌入对所有数据进行训练,或者只使用新的词嵌入,而不改变词嵌入。
增量训练实际上意味着,用我们之前获得的数据完成模型训练,然后用我们获得的新数据重新训练模型,而不是从头开始。