12

我正在使用这段代码:

import imaplib
mail = imaplib.IMAP4_SSL('imap.gmail.com')
mail.login(myusername, mypassword)
mail.list()
# Out: list of "folders" aka labels in gmail.
mail.select("inbox") # connect to inbox.

result, data = mail.search(None, "ALL")

ids = data[0] # data is a list.
id_list = ids.split() # ids is a space separated string
latest_email_id = id_list[-1] # get the latest

result, data = mail.fetch(latest_email_id, "(RFC822)") # fetch the email body (RFC822) for the given ID

raw_email = data[0][1] # here's the body, which is raw text of the whole email
# including headers and alternate payloads

print raw_email

它可以工作,除了当我打印raw_email它返回一堆额外信息时,我怎样才能解析,例如,额外信息并只获取 From 和正文?

4

2 回答 2

25

Python 的电子邮件包可能是一个不错的起点。

import email
msg = email.message_from_string(raw_email)

print msg['From']
print msg.get_payload(decode=True)

这确实应该问你,尽管当一封电子邮件有多个部分(附件、正文和 HTML 版本等)时,事情会稍微复杂一些。

在这种情况下,msg.is_multipart()将返回 Truemsg.get_payload()并将返回一个列表而不是一个字符串。email.message文档中有更多信息。

或者,与其解析原始 RFC822 格式的消息——如果电子邮件包含附件,它可能非常大——你可以只向 IMAP 服务器询问你想要的信息。将您的线路更改mail.fetch为:

mail.fetch(latest_email_id, "(BODY[HEADER.FIELDS (FROM)])")

只需从服务器请求(并返回)电子邮件的From行。同样将第二个参数设置为"(UID BODY[TEXT])" 将返回电子邮件的正文。RFC2060有一个在这里应该有效的参数列表。

于 2013-10-23T14:53:33.513 回答
8

IMAP 高级库:https ://github.com/ikvk/imap_tools (我是作者)

from imap_tools import MailBox, A
with MailBox('imap.mail.com').login('test@mail.com', 'password', 'INBOX') as mailbox:
    for msg in mailbox.fetch(A(all=True)):
        sender = msg.from_
        body = msg.text or msg.html
于 2020-04-11T11:52:03.623 回答