0

我们想要创建一个 API,它接受输入并识别它是否是滥用词。我阅读了有关单词亵渎过滤器的信息,但无法找到令人满意的解决方案来检查这一点。有几个挑战,例如:

  1. 被认为是滥用的单词“SUCK”可以写成 SUUCK、SUCK、SU CK 或许多其他方式。单词可以用任何特殊字符分隔,或者可能使用错误的拼写,但使用发音相似的单词
  2. 多语种:可以用任何语言书写辱骂性词语。

我们如何识别这一点?我阅读了 Comparing strings with tolerance以了解可以根据它们的相似性比较字符串的位置。

但这是许多组织必须担心的事情,尤其是。聊天等,应该有一些方法来识别这种语言。我可以得到任何参考吗?以及我们如何阻止发音相似的词或仅缺少 1 个或字符但它们与任何滥用词非常相似的地方。

4

0 回答 0