2

目前 fastText wiki.en.bin 的 bin 文件约为 8GB。有没有这个大小的一半的版本?bin 文件由模型和从大型 wiki 语料库生成的预训练向量组成。有没有更小的en。使低档机器更容易使用的版本?加载它会占用太多内存。

或者要获得一个较小的 bin 文件以用于 fasttext,我应该用一组较小的并行语料库训练我自己的一组 fasttext 向量吗?

4

2 回答 2

2

您可以使用量化功能

$ ./fasttext quantize -output wiki.en 

这将大大减小模型的大小,而不会损失太多的准确性。

于 2018-07-20T08:58:08.020 回答
0

目前,原生 Facebook fastText 库仅支持用于分类的监督模型的量化,并且不能压缩无监督模型以嵌入在 wiki 上训练的查找。

但是,我创建了一个包compress-fasttext,它能够显着减小无监督 fastText 模型的大小。您可以在这篇 Medium 帖子中了解更多相关信息。

有几个不同大小的模型(10MB 到 200MB)用这个包压缩,用于英语和俄语,还有一组用于 101 种其他语言的微型模型

于 2021-12-14T10:53:39.447 回答