我有一个稍微不寻常的亵渎相关问题。
现在我们已经习惯了对用户生成的内容进行亵渎过滤——任何方法都是不完美的,但是像CleanSpeak和WebPurify这样的产品已经做得很好了。
然而,我们目前面临的问题是,我们一直在构建一个引擎来运行基于促销代码的竞赛,该竞赛将在国际范围内使用。我们可以检查这些代码中没有一个在拉丁美洲西班牙语或马来语中是亵渎的(至少在第一种情况下),以确保我们不会发送与FUCK23
or等价的代码PEN15
。
我们已经尝试在谷歌上搜索并询问我们认识的人,但我们找不到一种简单的方法来获取一个es-419
或一个ms
亵渎列表来过滤代码。由于每个语言环境实际上有数百万个代码,我们宁愿进行离线检查,也不愿为每个代码都打一个 API(这在带宽和使用费方面都很昂贵)。
我知道这有点远,但有谁知道不同语言的亵渎列表的好来源?
#disclaim
:我们知道没有脏话过滤是完美的,它对用户生成的内容基本上是徒劳的,我们已经阅读了SO #273516:你如何实现一个好的脏话过滤器?——这不是我们要问的。