word2vec - most_similar_approx 的 topn 值较大时性能不佳

问问题 2021-02-02T13:26:14.087

29 次

我有一个从幅度模型返回 most_similar_approx 的 API 。该模型由具有 50 个维度和 50 个树的原生 Word2Vec 格式构建而成。量级模型接近 350MB，大约有 350000 个令牌。对此 API 进行负载测试我观察到，随着我增加 most_similar_approx 的 topn 值，性能会下降，我需要大量类似的令牌用于下游活动，topn=150 我在 API 上获得每秒 500 个事务的吞吐量，而逐渐减少它，我得到 800 个 topn=50 的事务和 ~1300 个 topn=10 的事务。服务器实例没有任何内存/cpu 负载，正在使用 c5.xlarge AWS EC2 实例。

无论如何我可以调整模型以提高高 topn 值的性能吗？我的目标是从词嵌入中获取 most_similar 标记，而 pymagnitude 是我发现的最推荐的选项，是否有任何类似的高性能替代方案。

word2vec - most_similar_approx 的 topn 值较大时性能不佳

0 回答 0

Related

Reference