string - API：构建一个单词亵渎过滤器来识别辱骂性语言

翻译自：https://stackoverflow.com/questions/46717087 2017-10-12T19:02:21.580

528 次

我们想要创建一个 API，它接受输入并识别它是否是滥用词。我阅读了有关单词亵渎过滤器的信息，但无法找到令人满意的解决方案来检查这一点。有几个挑战，例如：

被认为是滥用的单词“SUCK”可以写成 SUUCK、SUCK、SU CK 或许多其他方式。单词可以用任何特殊字符分隔，或者可能使用错误的拼写，但使用发音相似的单词
多语种：可以用任何语言书写辱骂性词语。

我们如何识别这一点？我阅读了 Comparing strings with tolerance以了解可以根据它们的相似性比较字符串的位置。

但这是许多组织必须担心的事情，尤其是。聊天等，应该有一些方法来识别这种语言。我可以得到任何参考吗？以及我们如何阻止发音相似的词或仅缺少 1 个或字符但它们与任何滥用词非常相似的地方。

0 回答 0