再会!我们目前遇到了障碍,因为我们找不到理想的字符串度量算法用于我们的程序。字符串度量算法有很多,一一测试和检查并不理想。
我们需要证明选择的字符串度量对于我们试图解决的问题是理想的,即检测句子中的亵渎词。我们最初选择了 Jaro-Winkler 距离,但与其他算法相比,我们无法完全证明它是正确的算法。我们只能将它与 Levenshtein 和 Hamming Distance 进行比较。
当前的问题在于拼写更改,因为我们需要有一个特定的阈值来证明一个词是否亵渎。我们需要能够捕捉到拼写错误(添加/减少字母)、颠倒、音节重新排列等的亵渎词。然后我们不确定 Jaro-Winkler 是否适合这类问题。
现在我们不会专注于像 @$$ 这样的 leet/特殊形式。
任何帮助和建议将不胜感激!