1

我使用 PHP 构建了一个 Web 应用程序,该应用程序从 Instagram 获取许多包含诸如“披萨”之类的关键字的帖子,并将它们与其他一些数据一起加载到 MongoDB。

其中一个模块是 Python 的 NLTK,这是​​我调用它的方式(是的,我正在疯狂地切换语言 [只是为了研究它们]):

$foo = exec("python tokenize.py $bar");

现在上面的行完全可以工作了,但我正在寻找一种类似的方法来调用我的 SpamAssassin 来检查 Instagram 帖子的内容是否是垃圾邮件。从 SA 的文档来看,我知道可以检查一些纯文本文件,因为它们是这里的邮件。虽然我是 SA 的新手。

对于高级 SA 用户来说,这个问题可能非常简单,但我无法从 cmd 中分辨出 SA 中的任何输入输出选项,就像上面的 PHP-to-Python 调用一样。假设这$string是 Instagram 帖子的内容,我正在寻找这样的脚本:

$score_of_SA = exec("spamassassin.exe $string")

PHP中是否有类似的脚本?如果没有,我该怎么做才能检查该内容?

假设我的 SA 已更新和培训。

4

1 回答 1

1

疑。Spamassassin 不是通用的文本检查器,它通过查看各种已知的电子邮件相关因素(例如发送服务器是否具有有效的 MX 记录或 SPF 或 DKIM 消息)从源电子邮件中建立分数。

这些都与非电子邮件结构有关。关于文本分析的核心组件之一是贝叶斯过滤器的实现。

不过还是有希望的!以及更集成到 PHP 项目中的解决方案。碰巧在 Packagist 中有一个 php 贝叶斯垃圾邮件过滤器库: 请参见此处

你必须训练一个垃圾邮件过滤器,这个库也不例外。

于 2015-08-27T04:43:24.720 回答