所以我在表中有一个包含字符串值的列(从第 3 方工具填充的关键字)。我正在开发一种自动化工具来识别可能被标准化为单个值的相似值的集群。例如,“Firemen”/“Fireman”、“Isotope”/“Asotope”或“Canine”/“Canines”。
一种计算 levenshtein 距离的方法似乎是理想的,除了它涉及太多的字符串操作/比较并且可能对 SQL 索引的使用不佳。
我考虑过按列的 Left(X) 字符进行增量分组,这是最大化索引使用的一种不错的方法,但这种方法实际上只在查找单词末尾有差异的单词时才有效.
任何人都有一些好的想法可以在 SQL 中有效地解决这个问题?
注意:我意识到这个问题与(查找两个字符串有多相似)非常相似,但这里的区别是需要在 SQL 中有效地执行此操作。