最近,我被分配为一个新项目构建翻译记忆库。这个想法是 TM 是 RPC 层之上的一个缓存层,如果 TM 中没有匹配项,它将调用 Google Translate API 进行翻译。我考虑使用源文本作为 TM 中的键,我需要一个模糊匹配算法来匹配查询文本和 TM 中的键。如果结果高于某个阈值,例如 0.85(范围为 0 到 1),则将使用缓存的翻译文本,而不是调用 google 服务。
我已经阅读了很多文章/博客/论文,但仍然不知道从哪里开始。TD-IDF+余弦相似度似乎不够好?莱文斯坦距离?语义相似度如何?但是怎么做?
我在评论中读到了这一点 ,@mbatchkarov 似乎提供了一个正确的方向。
有没有人在这个问题上有类似的经验?欢迎任何建议。