0

我的任务是为 Rails 应用程序实现基于黑名单的亵渎过滤器。我知道基于黑名单的过滤存在很多问题,但这个决定是在我头上做出的。挑战:我正在寻找一个很好的西班牙脏话列表以进入过滤器。对于英语,我们正在建立一个列表,该列表详尽地列出了共轭/复数/等,每行一个文本文件。西班牙语的公共领域中是否存在这样的列表?

4

1 回答 1

2

找到好的列表并对其进行调整是很困难的。听起来您正在做很多可以自动化的手动工作(即共轭)。我为我公司的名为 CleanSpeak 的亵渎过滤器做了很多这样的事情,其中​​大部分可以使用词的 POS 标识符自动执行,并且在许多情况下,您可以手动进行 POS 标记或查找 POS 源。

您还需要考虑列表的质量以及过滤器的维护和管理。很多人认为这很简单,然后意识到要防止误报是极其困难的。

综上所述,我们发现大部分其他语言的列表很难在线获得,并最终支付了许多从其他公司建造或购买的费用。我们在网上找到的清单在翻译后几乎一文不值。我们还尝试删除黑名单并进行翻译,这是完全失败的,因为大多数英语亵渎没有其他语言的对应词。我建议购买清单或与当地大学的学生合作生成清单。我们的一些客户发现这种方法相对较好,而且不太贵。

我还建议您查看一些资源,这些资源定义了管理用户生成内容的最佳方法。这些将帮助您完成任何构建与购买决策。

于 2010-10-21T16:34:00.347 回答