1

我必须处理这个非常不守规矩的线程。这些邮件中的每一封都只是正常回复,所以每封都有完整的历史记录并不重要,直到它达到几百封电子邮件。

所以,我在 Thunderbird 中将它们全部打开,然后导出。现在,我必须找到一种方法,将每封电子邮件剥离为仅包含其自己的内容。保留回复位,但只是摆脱那些其他电子邮件的实际内容。

我目前正在使用Python,因为我对它很熟悉,并且以前用它来进行XML解析。我尝试了 BeautifulSoup,它似乎在去除 3D"gmail_quote" div 元素方面效果很好,但在这样做时,它似乎试图通过在其他元素中包装各种位来理解 .eml 文件的其余部分,并且破坏格式。

所以,我需要找到一种方法,从一个不是纯 XML 但包含许多有效 XML 的文件中剥离特定 div 类及其子类的每个实例,而不触及纯文本。我要使用的部分都是有效的 XML(或者,对于 BeautifulSoup 来说足够接近,属性上有奇怪的引号)。

我知道我还必须去掉正文中的回复,但这很容易。

4

1 回答 1

0

在没有看到示例的情况下,我无法确定如何完成您需要的工作,但是来自电子邮件模块的解析器应该处理解析 .eml 文件。

于 2012-02-17T11:53:20.673 回答