ruby - 在大型 Rails 站点上构建灵活的垃圾邮件检测的好的开源包是什么？

Question

我的网站越来越大，并且开始通过各种渠道吸引大量垃圾邮件。该网站有许多不同类型的 UGC（个人资料、论坛、博客评论、状态更新、私人消息等）。我正在进行各种缓解工作，我希望以闪电战的方式进行部署，以使垃圾邮件发送者相信我们不是一个值得攻击的目标。我对自己在功能方面所做的事情非常有信心，但缺少的一部分是一次杀死所有旧垃圾邮件。

这是我所拥有的：

大的好/坏语料库（5 位数的坏，6 或 7 位数的好）。很多垃圾邮件都有非常可靠的指纹，而我已经忽略了 6 个月的事实有所帮助:)
部署到 AWS 的大型模块化 Rails 站点。这不是一个巨大的流量站点，但我们正在运行 8 个实例，并开始了 SOA。
Ruby、Redis、Resque、MySQL、Varnish、Nginx、Unicorn、Chef，都在 Gentoo

我的要求：

考虑到数据量，我希望它表现得相当好（因此我对纯红宝石解决方案持谨慎态度）。
我应该能够针对不同类型的内容训练多个分类（419-scam vs botnet link spam）
我希望能够根据我们自己的侦探工作（模式匹配、IP 重用等）添加手动因素
最终，我想构建一个与 Ruby 一起使用的漂亮接口。如果这需要在 C 或其他语言中弄脏我的手，我可以处理它，但如果可以的话，我会避免它。

我意识到这是一个冗长而模糊的问题，但我要寻找的主要只是一个好的软件包列表，其次是来自已经建立类似系统的人的任何随机想法，关于如何处理它。

score 5 · Accepted Answer

我们寻找可接受的开源解决方案，但没有找到。

如果您得出相同的结论并决定考虑使用专有的反垃圾邮件，请查看付费的Akismet协作式垃圾邮件过滤服务。我们已经在十几个中型站点上获得了不错的性能。它通过机架和机架与导轨集成。

ruby - 在大型 Rails 站点上构建灵活的垃圾邮件检测的好的开源包是什么？

1 回答 1

Related

Reference