我每天都会收到一封电子邮件,其中包含我撰写的一些时事通讯的说明。我想解析电子邮件的内容以提取有用的部分并将它们存储在元组中。
以下是电子邮件内容的示例:
“没有有用信息的开场白。
(XXX 1-111)
http://the_link_for_the_resource.com
(YYY 2-222)
http://the_link_for_the_second_resource.com
...
另一个无用的句子”
在此示例中,“XXX”= 邮件列表,“1-111”= 段
我希望将信息存储在元组中 - (mailing_list,segment,url)
这样做的最佳方法是什么?
编辑:
我想确定在编写一些东西从服务器检索它之前解析消息的确切内容是否可行。因此,为了开始破解,我使用电子邮件模块和电子邮件文件编写了一个快速脚本。这是代码:
mail_file = open("new_board_mail.eml", "r")
mail_message = email.message_from_file(mail_file)
payload = mail_message.get_payload(decode=True)
charset = mail_message.get_content_charset('iso-8859-1')
mail_content = payload。解码(字符集)
我的理解是,这段代码会导致 `mail_content` 包含邮件内容的 Unicode 字符串。我将如何从这里解析内容?