我要解决的问题:我有一百万个单词(多种语言)和一些他们归类为我的训练语料库的类。给定单词的测试语料库(随着时间的推移,数量肯定会增加),我想在训练语料库中获得每个单词的最接近匹配,从而将该单词分类为其最接近匹配的对应类。
我的解决方案:最初,我做了这种无法扩展的蛮力。现在我想我在训练语料库(O(n))的连接上构建一个后缀树并查询测试语料库(恒定时间)。试图在python中做到这一点。
我正在寻找可以帮助我入门的工具或软件包,或者寻找其他更有效的方法来解决手头的问题。提前致谢。
编辑1:至于我如何找到最接近的匹配,我在考虑精确匹配对齐(来自后缀树)的组合,然后对于剩下的输入字符串部分,我想用仿射间隙惩罚函数。