4

我正在使用 gensim 加载 fasttext 的预训练词嵌入

de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec')

但这给了我一个记忆错误。

有什么办法可以加载吗?

4

1 回答 1

5

除了在具有更多内存的机器上工作之外,这些gensim load_word2vec_format()方法还有一个limit选项,可以给定n个要读取的向量。只会加载文件的前n 个向量。

例如,仅加载前 100,000 个单词:

de_model = KeyedVectors.load_word2vec_format('wiki.de\wiki.de.vec', limit=100000)

由于此类文件通常首先对频率较高的单词进行排序,而稀有单词的“长尾”往往是较弱的向量,因此许多应用程序不会因为丢弃稀有单词而损失太多功率。

于 2018-06-18T22:20:29.723 回答