我建议忘记尝试猜测这些迹象......它们总是在变化。
我会标记行为的每一个可以想象的“特征”,用“ok”、“spam”或“unsure”自动对这些特征进行评分。然后,“Train on Error”(记录猜测错误的情况)。一段时间后,您可能会获得 99.7 % 的准确率。
以下是提交给我的网站的 7 个最有趣的功能的示例,该功能的垃圾邮件得分为 89.9771%。这是垃圾邮件。
在帖子中找到的每个关键字都是 98.9% 可能是垃圾邮件的功能:
mssg txt - "tours" || Prob 0.98993
mssg txt - "cruises" || Prob 0.98993
mssg txt - "agencies" || Prob 0.98993
mssg txt - "choice" || Prob 0.98991
'12345' 的电话号码有 95% 的可能性是垃圾邮件
tel number - "123456" || Prob 0.95440 Delta 0.45440
消息的总长度为 30 个字符(删除 html 后)是指示 94% 垃圾邮件的特征
mssg maxlen - "30" || Prob 0.94600
(还有另一个得分的功能Prob 0.01011
抵消了总得分,将其击倒了一点。但是,我不会说那个功能是什么;o)
它是从一个众所周知的垃圾邮件 ip 提交的:http: //www.projecthoneypot.org/ip_84.19.186.171,但无需使用该特定知识将其标记为垃圾邮件。我收集了各种信息,例如 IP、提交率等……但是,正如您所见,最明显的类似机器人行为的迹象并不是您可能猜到的。
要构建您自己的其中之一....请阅读以下内容:http:
//www.paulgraham.com/spam.html