1

我正在寻找一种方法来识别电子邮件中引用的文本。目标是在我的网络应用程序中添加类似于 Gmail 的“显示引用文本”功能的内容,该应用程序涉及邮件处理程序机器人。

stackoverflow 上有类似的问题,但他们要求一种算法。如果必须,我可以实现这一点,但我更喜欢经过验证的真正解决方案。

要求:

1) 支持 HTML 和纯文本电子邮件

2)在全线程上操作(即,它有原始文本来比较引用的文本;无需猜测)

3) 处理与引用相关的常见添加,例如“2008 年 5 月 10 日下午 6:35,布兰登写道:”

一个 python 库将是超级神奇的理想,但我不希望得到那么幸运。一个可以做到这一点的简单命令行工具非常接近理想,但我也不希望那么幸运。我很乐意从一个开源邮件客户端选择一个众所周知的良好实现,它可以合理地提取到一个工具中。

有没有人建议我最好的选择是什么?

我有点惊讶没有“电子邮件处理程序机器人构建工具包”之类的东西。

4

2 回答 2

3

只是跟进我收到的关于这个问题的电子邮件。

Sup 有一个非常容易理解/提取/翻译的逻辑来实现这一点。我将相关函数移植到 Python 并根据我的目的对其进行了调整。

Sup 是用 Ruby 编写的基于终端的邮件客户端:http: //sup.rubyforge.org/

于 2010-07-20T22:53:41.433 回答
1

谷歌为他们的方法申请了专利: http ://www.google.co.uk/patents/US7222299

于 2015-08-19T09:45:33.157 回答