1

我正在寻找一些易于实现的算法来查找我的 cms 中的重复文本。实际上,我正在将文本保存到删除空格的额外列中,并将所有字符设为小写,因此如果它们的空格和字母大小写不同,我可以找到重复项,但这还不够。

我如何处理两个文本相差几个字符并且我还希望它们被识别为重复的情况?

4

1 回答 1

0

解决此问题的简单方法是使用 Soundex 检查。您将每个单词转换为其 Soundex 等效项,消除小单词,如果记录相同,则匹配。粗鲁,但有效。

于 2013-02-11T19:40:39.237 回答