我的网站越来越大,并且开始通过各种渠道吸引大量垃圾邮件。该网站有许多不同类型的 UGC(个人资料、论坛、博客评论、状态更新、私人消息等)。我正在进行各种缓解工作,我希望以闪电战的方式进行部署,以使垃圾邮件发送者相信我们不是一个值得攻击的目标。我对自己在功能方面所做的事情非常有信心,但缺少的一部分是一次杀死所有旧垃圾邮件。
这是我所拥有的:
- 大的好/坏语料库(5 位数的坏,6 或 7 位数的好)。很多垃圾邮件都有非常可靠的指纹,而我已经忽略了 6 个月的事实有所帮助:)
- 部署到 AWS 的大型模块化 Rails 站点。这不是一个巨大的流量站点,但我们正在运行 8 个实例,并开始了 SOA。
- Ruby、Redis、Resque、MySQL、Varnish、Nginx、Unicorn、Chef,都在 Gentoo
我的要求:
- 考虑到数据量,我希望它表现得相当好(因此我对纯红宝石解决方案持谨慎态度)。
- 我应该能够针对不同类型的内容训练多个分类(419-scam vs botnet link spam)
- 我希望能够根据我们自己的侦探工作(模式匹配、IP 重用等)添加手动因素
- 最终,我想构建一个与 Ruby 一起使用的漂亮接口。如果这需要在 C 或其他语言中弄脏我的手,我可以处理它,但如果可以的话,我会避免它。
我意识到这是一个冗长而模糊的问题,但我要寻找的主要只是一个好的软件包列表,其次是来自已经建立类似系统的人的任何随机想法,关于如何处理它。