python - 需要从 Thunderbird 导出的 .eml 文件中删除旧消息

Question

我必须处理这个非常不守规矩的线程。这些邮件中的每一封都只是正常回复，所以每封都有完整的历史记录并不重要，直到它达到几百封电子邮件。

所以，我在 Thunderbird 中将它们全部打开，然后导出。现在，我必须找到一种方法，将每封电子邮件剥离为仅包含其自己的内容。保留回复位，但只是摆脱那些其他电子邮件的实际内容。

我目前正在使用Python，因为我对它很熟悉，并且以前用它来进行XML解析。我尝试了 BeautifulSoup，它似乎在去除 3D"gmail_quote" div 元素方面效果很好，但在这样做时，它似乎试图通过在其他元素中包装各种位来理解 .eml 文件的其余部分，并且破坏格式。

所以，我需要找到一种方法，从一个不是纯 XML 但包含许多有效 XML 的文件中剥离特定 div 类及其子类的每个实例，而不触及纯文本。我要使用的部分都是有效的 XML（或者，对于 BeautifulSoup 来说足够接近，属性上有奇怪的引号）。

我知道我还必须去掉正文中的回复，但这很容易。

score 0 · Accepted Answer

在没有看到示例的情况下，我无法确定如何完成您需要的工作，但是来自电子邮件模块的解析器应该处理解析 .eml 文件。

1 回答 1