string - 具有拼写更改的单词的理想字符串度量算法（反转，添加额外字符，在前缀或后缀内）

翻译自：https://stackoverflow.com/questions/70685585 2022-01-12T17:07:22.160

10 次

再会！我们目前遇到了障碍，因为我们找不到理想的字符串度量算法用于我们的程序。字符串度量算法有很多，一一测试和检查并不理想。

我们需要证明选择的字符串度量对于我们试图解决的问题是理想的，即检测句子中的亵渎词。我们最初选择了 Jaro-Winkler 距离，但与其他算法相比，我们无法完全证明它是正确的算法。我们只能将它与 Levenshtein 和 Hamming Distance 进行比较。

当前的问题在于拼写更改，因为我们需要有一个特定的阈值来证明一个词是否亵渎。我们需要能够捕捉到拼写错误（添加/减少字母）、颠倒、音节重新排列等的亵渎词。然后我们不确定 Jaro-Winkler 是否适合这类问题。

现在我们不会专注于像 @$$ 这样的 leet/特殊形式。

任何帮助和建议将不胜感激！

0 回答 0