1

我试图在 Infersent 的帮助下嵌入一个句子而 Infersent 使用fastText向量进行词嵌入。fastText 矢量文件接近 5 GiB。

当我们将 fastText 矢量文件与代码存储库一起保存时,它会使存储库变得巨大,并使代码难以共享/部署(甚至创建 docker 容器)。

有什么方法可以避免将矢量文件与存储库一起保存,而是将其重新用于嵌入新句子?

4

1 回答 1

1

你嵌入了什么样的句子,它与生成 fastText 嵌入的领域是否相同?

尝试以标记获取数据的表示,即一组所有标记,或出现在您要使用 fastText 嵌入的句子中的最常见标记的一些表示。

计算令牌与 fastText 中令牌的重叠,从 fastText 中删除未出现在数据表示中的令牌。

我最近这样做了,从一个带有一些预训练词嵌入的 1.4GB 文件增加到 200MB,主要是因为与我的语料库的重叠率约为 10%。

于 2019-03-05T20:57:26.343 回答