0

我在比较 python 中的正文电子邮件时遇到问题。我从包含电子邮件的文本文件中获取正文,并用电子邮件正文填充列表:

for enum in original_list:
with open(enum, 'r') as f:
    enum = f.read()
    msg = email.message_from_string(enum)
    for part in msg.walk():
        my_body = part.get_payload(decode=True)
        original_data_body.append(my_body)

我从另一个文件的消息中获取正文,该文件包含 mbox 格式的所有消息。再次使用 walk 和 get_payload。

问题是 mbox 中的电子邮件最终包含额外的许可证消息。

如何删除这些额外的消息并比较电子邮件的正文?

4

2 回答 2

0

额外的许可证信息总是一样吗?如果是,那么您可以根据该字符串拆分字符串,并仅保留 split 返回的第一部分,该部分将包含原始消息。如果它不完全相同,但存在在消息中重复的模式,则将其拆分为该模式并返回第一部分。

于 2019-12-15T17:11:22.807 回答
0

是的,信息总是一样的。我可以拆分,但这意味着对拆分进行硬编码。我希望有更优雅的方式。:(

于 2019-12-15T19:21:57.717 回答