4

我经营一个网站,有抱负的作家可以在上面发布他们的作品。自然地,这些写作中的某些内容可能具有“敏感”性质。有时它包含很多脏话,有时是恶意的,有时是自杀式的。这不是常态,但它存在。

当然,我们希望我们的用户可以随意发布他们喜欢的内容,但问题出现在广告商身上。也就是说,Google Adsense 会定期向我们发送有关包含过多脏话或诽谤的内容的警告。最新的是有人写的一篇关于割伤自己的文章,谷歌认为这太“悲惨”了。

我通常能够编写脚本,也可以浏览文本并检测到很多脏话或种族主义术语或反同性恋言论等。但我无法为我的生活弄清楚如何检测“悲剧”文本。

所以,问题是2倍。

  1. 是否有某种 PHP 类/函数/API 擅长检测不当内容?
  2. 关于如何自动检测自杀或自残内容的任何想法?
4

1 回答 1

2

您可以针对悲剧内容的外观训练贝叶斯过滤器。就像垃圾邮件过滤器一样,但对于您想要阻止的内容。我使用了这个 PHP 库,它运行良好:https ://github.com/Dachande663/PHP-Classifier

它很适合人类的节制和标记过程。

于 2013-04-29T14:56:35.010 回答