java - 快速将字符串与 Java 中的集合进行比较

Question

我正在尝试根据集合计算字符串的编辑距离以找到最接近的匹配项。我目前的问题是集合非常大（大约 25000 个项目），所以我不得不将集合缩小到只有相似长度的字符串，但这仍然只能将其缩小到几千个字符串，这仍然很慢。是否有允许快速查找类似字符串的数据结构，或者是否有另一种方法可以解决这个问题？

score 8 · Accepted Answer

听起来像BK-tree可能是你想要的。这是一篇讨论它们的文章：http: //blog.notdot.net/2007/4/Damn-Cool-Algorithms-Part-1-BK-Trees。一个快速的谷歌产生了一些 Java 实现。

score 6 · Accepted Answer

Levenshtein Automata 允许从大型词典中快速选择一组单词，以便它们与给定单词的给定 Levenshtein 距离内。

score 2 · Accepted Answer

如果你的“相似”标准定义了一个总排序，你应该能够定义一个比较器并使用一个树集来找到最接近的匹配项（例如使用天花板和地板方法）。

3 回答 3