我有一个单词列表['like','Python']
,我想加载这些单词的预训练 Glove 词向量,但是 Glove 文件太大,有什么快速的方法吗?
我试过的
我遍历文件的每一行以查看单词是否在列表中,如果为真,则将其添加到字典中。但是这种方法有点慢。
def readWordEmbeddingVector(Wrd):
f = open('glove.twitter.27B/glove.twitter.27B.200d.txt','r')
words = []
a = f.readline()
while a!= '':
vector = a.split()
if vector[0] in Wrd:
words.append(vector)
Wrd.remove(vector[0])
a = f.readline()
f.close()
words_vector = pd.DataFrame(words).set_index(0).astype('float')
return words_vector
我也在下面尝试过,但它加载了整个文件而不是我需要的向量
gensim.models.keyedvectors.KeyedVectors.load_word2vec_format('word2vec.twitter.27B.200d.txt')
我想要的是
类似的方法,gensim.models.keyedvectors.KeyedVectors.load_word2vec_format
但我可以设置要加载的单词列表。