我正在从 word2vec C 代码生成的二进制文件中加载预先训练的向量,例如:
model_1 = Word2Vec.load_word2vec_format('vectors.bin', binary=True)
我正在使用这些向量来生成句子的向量表示,其中包含在vectors.bin
. 例如,如果vectors.bin
没有与单词“yogurt”相关的向量,我尝试
yogurt_vector = model_1['yogurt']
我明白KeyError: 'yogurt'
了,这很有意义。我想要的是能够将没有对应向量的句子单词添加到model_1
. 我从这篇文章中了解到,您无法继续训练 C 向量。那么有没有办法为model_2
没有向量的单词训练一个新模型并与model_2
合并model_1
?
或者,有没有办法在我实际尝试检索模型之前测试模型是否包含一个单词,这样我至少可以避免 KeyError?