5

Wordpress 有一个名为 Akismet 的垃圾邮件过滤插件,它似乎能够将任何文本块分类为垃圾邮件。唯一需要注意的是,您需要通过他们的界面和他们的数据库/算法不是开源的或其他容易获得的。

也有一些商业提供商为您提供 Web 可访问的 API,以对用户在您的 Web 应用程序中提交的电子邮件、评论或任何其他文本进行分类。

是否有任何类型的开源或可免费访问的数据库可以将文本块分类为垃圾邮件/非垃圾邮件?

编辑:这是我想要的更清晰的解释

基本上我希望那里有一个广泛的数据库,其中某些短语是垃圾邮件的概率。由于(我假设)垃圾邮件发送者向所有电子邮件地址发送垃圾邮件,因此通过使用此数据库预先填充我的贝叶斯垃圾邮件过滤器,我可以创建一个应用程序,该应用程序首先捕获大多数垃圾邮件,而无需任何用户培训。

4

3 回答 3

2

可能不完全是您要查找的内容,但 MoinMoin Wiki 维护人员在此处保留了 Wiki 垃圾邮件正则表达式的中央列表:http ://master.moinmo.in/BadContent

于 2009-07-26T08:29:22.170 回答
1

根据评论更新:

我不认为一个简单的数据库可以解决问题。大多数垃圾邮件是通过算法生成的(例如,评论垃圾邮件通常包含帖子中的内容)。Akismet 做了多种事情,可能包括链接分析和使用已知的垃圾邮件签名,但他们不发布它。

我读过一些有趣的人工智能项目来分类好内容而不是坏内容。您还可以查看Spam Karma,它根据各种垃圾邮件触发器(加载页面后立即发布响应等)分析博客评论。


原始答案(DNS 黑名单):

于 2009-07-26T08:05:28.847 回答
1

也许这完全是一个死问题 - 但是,请查看: http: //www.stopforumspam.com 使用他们的 API 检查 IP 或输入的用户名或电子邮件对他们的数据库。但我建议您使用带有超时参数的 cURL - 该服务有时可能会或可能不会超时。

于 2013-08-17T12:54:39.830 回答