Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我试图在 Infersent 的帮助下嵌入一个句子,而 Infersent 使用fastText向量进行词嵌入。fastText 矢量文件接近 5 GiB。
当我们将 fastText 矢量文件与代码存储库一起保存时,它会使存储库变得巨大,并使代码难以共享/部署(甚至创建 docker 容器)。
有什么方法可以避免将矢量文件与存储库一起保存,而是将其重新用于嵌入新句子?
你嵌入了什么样的句子,它与生成 fastText 嵌入的领域是否相同?
尝试以标记获取数据的表示,即一组所有标记,或出现在您要使用 fastText 嵌入的句子中的最常见标记的一些表示。
计算令牌与 fastText 中令牌的重叠,从 fastText 中删除未出现在数据表示中的令牌。
我最近这样做了,从一个带有一些预训练词嵌入的 1.4GB 文件增加到 200MB,主要是因为与我的语料库的重叠率约为 10%。