7

我正在使用Sendgrid 和他们的 Parse API来发送/接收电子邮件。Parse API 允许一个 Web 应用程序以 $_POST 的形式接收电子邮件,但问题是在 $_POST 中,我希望能够从其先前的消息和链接在一起的元数据中提取消息本身。

为了向您展示我在下图中的意思,我只想捕获文本,“尝试从 GMAIL 从 12373 发送到 12373”,而不是它下面的所有垃圾。如果这不可能,是否有人对如何解析电子邮件正文($_POST['text'])有任何建议,以便我可以分离出邮件本身?

问题是,取决于电子邮件客户端(gmail、outlook 等),我不清楚日期信息,在这种情况下:“2013 年 1 月 23 日,星期三 ...”,将允许关注消息本身。如果所有电子邮件客户端都将日期放在消息下方,那么我似乎可以设计一个花哨的正则表达式来查找换行符,然后是日期或其他内容。想法?

**整个** 包含先前消息的消息正文

4

4 回答 4

14

你有几个选择:

1)插入一个拆分电子邮件的令牌

您可以执行类似的操作--- reply above this line ---,然后删除该令牌下方的所有内容。

2)使用电子邮件回复解析库

github 做了一个非常好的工作,但它是用 ruby​​ 编写的。有一个php 端口,虽然这可能对你需要的有好处:

完整的工作代码

<?php
  require_once 'application/third_party/EmailReplyParser-master/src/autoload.php';
  $email = new \EmailReplyParser\Email();
  $reply = $email->read($_POST['text']);            
  $message=$reply[0]->getContent();
  $message=preg_replace('~On(.*?)wrote:(.*?)$~si', '', $message); 
  //Last line is needed for some email clients, e.g., some university e-mails: foo@bar.edu but not Gmail or Hotmail, to get rid of "On Jan 23...wrote:" 
  //This failure to remove "On Jan 23...wrote:" is a known issue and is documented in their README

 ?>
于 2013-02-17T00:42:00.793 回答
1

根本无法保证从电子邮件中解析引用的消息线程,因此您不会找到适用于所有情况的正则表达式或任何其他代码。没有标准来定义回复的格式,并且您已经观察到不同的邮件客户端使用不同的约定。事实上,许多将允许用户编辑引用的文本。此外,用户可以粘贴不相关的消息,无论是否带有标题,从而形成混合匹配的格式。

如果您可以记录并保留所有消息的发送和接收历史记录,那么您可以(通常但不总是)使用 In-Reply-To 标头(请参阅RFC-5322)通过匹配上一条消息来定位它Message-ID 标头,并对正文进行比较并删除重复的文本运行。很明显,一些电子邮件系统这样做是为了改进他们的演示文稿,但我不知道有任何可用的开源代码。

于 2013-02-17T01:04:07.553 回答
0

用英语以外的其他语言回复呢?我们提出了添加标记的解决方案,但不是为每封电子邮件翻译它(基于用户的语言),我们将一些不可见的字符放入其中(U+200B准确地说是零宽度空间)。基于 "On..." 正则表达式,它容易出错,它可以轻松剪切一些电子邮件内容。

于 2017-05-11T11:43:10.680 回答
0

// 剪切引用文本,https://regex101.com/r/xO8nI1/5

    $message = preg_replace('/(On\s.*<\n){0,1}(.*\n(\n){0,1}((^>+\s?.*$)+\n?)+)/mi', '', $message);
于 2016-05-13T08:48:47.360 回答