python - 我找不到在 python 中比较电子邮件正文的方法，因为某些电子邮件最后包含额外的许可证消息

Question

我在比较 python 中的正文电子邮件时遇到问题。我从包含电子邮件的文本文件中获取正文，并用电子邮件正文填充列表：

for enum in original_list:
with open(enum, 'r') as f:
    enum = f.read()
    msg = email.message_from_string(enum)
    for part in msg.walk():
        my_body = part.get_payload(decode=True)
        original_data_body.append(my_body)

我从另一个文件的消息中获取正文，该文件包含 mbox 格式的所有消息。再次使用 walk 和 get_payload。

问题是 mbox 中的电子邮件最终包含额外的许可证消息。

如何删除这些额外的消息并比较电子邮件的正文？

score 0 · Accepted Answer

额外的许可证信息总是一样吗？如果是，那么您可以根据该字符串拆分字符串，并仅保留 split 返回的第一部分，该部分将包含原始消息。如果它不完全相同，但存在在消息中重复的模式，则将其拆分为该模式并返回第一部分。

score 0 · Accepted Answer

是的，信息总是一样的。我可以拆分，但这意味着对拆分进行硬编码。我希望有更优雅的方式。:(

python - 我找不到在 python 中比较电子邮件正文的方法，因为某些电子邮件最后包含额外的许可证消息

2 回答 2

Related

Reference