0

我已经使用 skipgram 技术训练了 2600 万条推文来创建词嵌入,如下所示:

sentences = gensim.models.word2vec.LineSentence('/.../data/tweets_26M.txt')
model = gensim.models.word2vec.Word2Vec(sentences, window=2, sg=1, size=200, iter=20)
model.save_word2vec_format('/.../savedModel/Tweets26M_All.model.bin', binary=True)

但是,我不断在我的数据库中收集更多推文。例如,当我有 200 万条推文时,我想更新我的嵌入,同时考虑这个新的 200 万条推文。

是否可以加载先前训练的模型并更新嵌入的权重(可能向我的模型添加新的词嵌入)?还是我需要从一开始就发布 28 (26+2) 百万条推文?使用当前参数需要 5 个小时,使用更大的数据需要更长的时间。

另一个问题,是否可以直接从数据库中检索语句参数(而不是从txtbz2gz文件中读取)?随着我们要训练的数据越来越大,最好绕过文本读/写操作。

4

0 回答 0