2

我正在做一个项目,我需要识别由真人发送的电子邮件,而不是批量邮件、通知和时事通讯。有没有明确的方法可以做到这一点?电子邮件标题中是否有任何信息可以提供帮助。我正在使用 Gmail IMAP,所以我已经收到了非垃圾邮件。

感谢您在这方面的任何帮助。谢谢!

4

1 回答 1

4

没有明确的方法来区分批量邮件和个性化邮件。与垃圾邮件不同,大多数批量邮件都是请求/预期的,因此发件人不会做奇怪的事情来绕过垃圾邮件过滤器,这意味着这些电子邮件通常可以很好地融合在一起。

但是,您可以寻找一些趋势。如果您想可靠地做到这一点,您可能需要应用一些评分系统,例如垃圾邮件过滤器。

您还需要接受您一定会得到很大比例的误报和误报。

群发邮件中常见的一些在个性化通信中出现频率较低的内容:

  1. “收件人”和“抄送”地址不包含本地收件人。有时发件人会发送到“mailList@mydomain.com”而不是“recipientA@recipientAdomain.com”、“recipientB@recipientBdomain.com”等。在这些情况下,也有可能“收件人”中只出现一个地址并且“抄送”中没有任何内容
  2. “发件人”地址是“noreply@”、“newsletter@”、“do-not-reply@”、“mailinglist@”,甚至更不常见的术语,如“support@”或“sales@”(但请记住,它们可能会导致误报)
  3. List-Unsubscribe: ”标头的存在
  4. 该消息包含一个取消订阅链接。运行模式匹配以查找电子邮件最后几行中的常用短语。寻找链接,或诸如“退订”、“退出”等字眼。
  5. 邮件列表往往内容丰富。检查是否大量使用 CSS 和大量图像,整个消息包含在<table></table>or<ul><li></li></ul>结构中。即像 Dreamweaver 之类的东西会放入的东西,而不是邮件客户端。
  6. 邮件顶部的标题或粗体内容。如果消息的开头部分类似于时事通讯,则它可能是时事通讯。
  7. 大量链接或频繁链接到相同(或相同少数)网站。时事通讯将尽可能多地引导用户访问公司的网站。如果链接域与发件人域匹配(或相似),您可能会获得更高的分数。
  8. 大量引用社交媒体。如果它是包含多篇文章的时事通讯,则每个故事可能都有自己的“Tweet this”、“Like this”链接。个人用户可能(最多)包含一个对 Twitter、Facebook 等的引用(在他们的签名中)
  9. 通知和其他自动生成的消息通常遵循相同的基本格式。如果您有能力,请对以前的消息进行某种差异或其他比较。强匹配意味着自动化。
  10. 没有问候语或通用问候语。但是,个人电子邮件通常也会跳过“Dear Fred”位,因此这本身并不是一个足够好的检测;但是像“亲爱的用户”或“亲爱的客户”这样的东西几乎可以肯定是通用的。
  11. 不太可能以“问候,伊恩”或“真诚的约翰·多伊”结尾
  12. 发件人以前得分很高。保持纪录。如果发件人多次触发高分,他们几乎可以肯定是批量邮寄。
于 2012-02-04T19:21:11.030 回答