6

我的网站越来越大,并且开始通过各种渠道吸引大量垃圾邮件。该网站有许多不同类型的 UGC(个人资料、论坛、博客评论、状态更新、私人消息等)。我正在进行各种缓解工作,我希望以闪电战的方式进行部署,以使垃圾邮件发送者相信我们不是一个值得攻击的目标。我对自己在功能方面所做的事情非常有信心,但缺少的一部分是一次杀死所有旧垃圾邮件。

这是我所拥有的:

  • 大的好/坏语料库(5 位数的坏,6 或 7 位数的好)。很多垃圾邮件都有非常可靠的指纹,而我已经忽略了 6 个月的事实有所帮助:)
  • 部署到 AWS 的大型模块化 Rails 站点。这不是一个巨大的流量站点,但我们正在运行 8 个实例,并开始了 SOA。
  • Ruby、Redis、Resque、MySQL、Varnish、Nginx、Unicorn、Chef,都在 Gentoo

我的要求:

  1. 考虑到数据量,我希望它表现得相当好(因此我对纯红宝石解决方案持谨慎态度)。
  2. 我应该能够针对不同类型的内容训练多个分类(419-scam vs botnet link spam)
  3. 我希望能够根据我们自己的侦探工作(模式匹配、IP 重用等)添加手动因素
  4. 最终,我想构建一个与 Ruby 一起使用的漂亮接口。如果这需要在 C 或其他语言中弄脏我的手,我可以处理它,但如果可以的话,我会避免它。

我意识到这是一个冗长而模糊的问题,但我要寻找的主要只是一个好的软件包列表,其次是来自已经建立类似系统的人的任何随机想法,关于如何处理它。

4

1 回答 1

5

我们寻找可接受的开源解决方案,但没有找到。

如果您得出相同的结论并决定考虑使用专有的反垃圾邮件,请查看付费的Akismet协作式垃圾邮件过滤服务。我们已经在十几个中型站点上获得了不错的性能。它通过机架和机架与导轨集成。

于 2011-06-03T21:58:33.853 回答