Wordpress 有一个名为 Akismet 的垃圾邮件过滤插件,它似乎能够将任何文本块分类为垃圾邮件。唯一需要注意的是,您需要通过他们的界面和他们的数据库/算法不是开源的或其他容易获得的。
也有一些商业提供商为您提供 Web 可访问的 API,以对用户在您的 Web 应用程序中提交的电子邮件、评论或任何其他文本进行分类。
是否有任何类型的开源或可免费访问的数据库可以将文本块分类为垃圾邮件/非垃圾邮件?
编辑:这是我想要的更清晰的解释
基本上我希望那里有一个广泛的数据库,其中某些短语是垃圾邮件的概率。由于(我假设)垃圾邮件发送者向所有电子邮件地址发送垃圾邮件,因此通过使用此数据库预先填充我的贝叶斯垃圾邮件过滤器,我可以创建一个应用程序,该应用程序首先捕获大多数垃圾邮件,而无需任何用户培训。