目前 fastText wiki.en.bin 的 bin 文件约为 8GB。有没有这个大小的一半的版本?bin 文件由模型和从大型 wiki 语料库生成的预训练向量组成。有没有更小的en。使低档机器更容易使用的版本?加载它会占用太多内存。
或者要获得一个较小的 bin 文件以用于 fasttext,我应该用一组较小的并行语料库训练我自己的一组 fasttext 向量吗?
目前 fastText wiki.en.bin 的 bin 文件约为 8GB。有没有这个大小的一半的版本?bin 文件由模型和从大型 wiki 语料库生成的预训练向量组成。有没有更小的en。使低档机器更容易使用的版本?加载它会占用太多内存。
或者要获得一个较小的 bin 文件以用于 fasttext,我应该用一组较小的并行语料库训练我自己的一组 fasttext 向量吗?
您可以使用量化功能
$ ./fasttext quantize -output wiki.en
这将大大减小模型的大小,而不会损失太多的准确性。
目前,原生 Facebook fastText 库仅支持用于分类的监督模型的量化,并且不能压缩无监督模型以嵌入在 wiki 上训练的查找。
但是,我创建了一个包compress-fasttext,它能够显着减小无监督 fastText 模型的大小。您可以在这篇 Medium 帖子中了解更多相关信息。
有几个不同大小的模型(10MB 到 200MB)用这个包压缩,用于英语和俄语,还有一组用于 101 种其他语言的微型模型。