nlp - 创建词嵌入而不在存储库中保留 fastText Vector 文件

Question

我试图在 Infersent 的帮助下嵌入一个句子，而 Infersent 使用fastText向量进行词嵌入。fastText 矢量文件接近 5 GiB。

当我们将 fastText 矢量文件与代码存储库一起保存时，它会使存储库变得巨大，并使代码难以共享/部署（甚至创建 docker 容器）。

有什么方法可以避免将矢量文件与存储库一起保存，而是将其重新用于嵌入新句子？

score 1 · Accepted Answer

你嵌入了什么样的句子，它与生成 fastText 嵌入的领域是否相同？

尝试以标记获取数据的表示，即一组所有标记，或出现在您要使用 fastText 嵌入的句子中的最常见标记的一些表示。

计算令牌与 fastText 中令牌的重叠，从 fastText 中删除未出现在数据表示中的令牌。

我最近这样做了，从一个带有一些预训练词嵌入的 1.4GB 文件增加到 200MB，主要是因为与我的语料库的重叠率约为 10%。

1 回答 1