在本地机器上加载 Facebook Research 发布的预训练 fasttext wordvectors 需要很长时间,我喜欢这样:
model = fs.load_word2vec_format('wiki.en.vec')
print(model['test']) # get the vector of the word 'test'
我正在寻求通过删除未出现在我的数据集中的单词的单词向量来减少加载时间。即我想将预训练的向量模型简化为构成我需要分析的数据集的单词,这是预训练模型的一个子集。
我正要尝试通过提取我需要的词向量并保存到一个新模型来构建一个新模型,但是类型会从FastTextKeyedVectors更改为FastText:
#model2 = gensim.models.Word2Vec(iter=1)
#model2 = FastText()
for word in words:
if (word in model):
model2[] = model[word]
如何减少加载时间?我的方法有意义还是我走错了路?