24

我最近下载了英语的 fasttext 预训练模型。我有两个文件:

  1. 维基.en.vec
  2. wiki.en.bin

我不确定这两个文件有什么区别?

4

2 回答 2

25

这些.vec文件仅包含纯文本的聚合词向量。这些.bin文件包含模型参数,关键是所有 n-gram 的向量。

因此,如果您想使用那些 n-gram(FastText 著名的“子词信息”)对未训练过的单词进行编码,您需要找到一个可以处理 FastText.bin文件的 API(但是大多数只支持.vec文件......)。

于 2018-03-22T23:01:05.590 回答
16

正如文件所说,

model.vec是一个包含单词向量的文本文件,每行一个。 model.bin是一个二进制文件,包含模型的参数以及字典和所有超参数。

换句话说,.vec文件格式与文件格式相同.txt,您可以在其他应用程序中使用它(例如,在您的 FastText 模型和 Word2Vec 模型之间交换数据,因为.vec文件类似于.txtWord2Vec 生成的文件)。.bin如果您想继续训练向量或重新开始优化,可以使用该文件。

于 2017-11-05T07:50:10.807 回答