4

我正在使用以下方法从 Gmail 中提取电子邮件:

def getMsgs():
 try:
    conn = imaplib.IMAP4_SSL("imap.gmail.com", 993)
  except:
    print 'Failed to connect'
    print 'Is your internet connection working?'
    sys.exit()
  try:
    conn.login(username, password)
  except:
    print 'Failed to login'
    print 'Is the username and password correct?'
    sys.exit()

  conn.select('Inbox')
  # typ, data = conn.search(None, '(UNSEEN SUBJECT "%s")' % subject)
  typ, data = conn.search(None, '(SUBJECT "%s")' % subject)
  for num in data[0].split():
    typ, data = conn.fetch(num, '(RFC822)')
    msg = email.message_from_string(data[0][1])
    yield walkMsg(msg)

def walkMsg(msg):
  for part in msg.walk():
    if part.get_content_type() != "text/plain":
      continue
    return part.get_payload()

但是,我收到的一些电子邮件几乎不可能从与编码相关的字符(例如“=”)中提取日期(使用正则表达式),随机落在各种文本字段的中间。这是一个出现在我要提取的日期范围内的示例:

姓名:KIRSTI 电子邮件:kirsti@blah.blah 电话号码:+ 999 99995192 参加人数:4 人,0 名儿童 抵达/离开:10 月 9 日= 2010 年 10 月 13 日 - 2010 年 10 月 13 日

有没有办法删除这些编码字符?

4

3 回答 3

6

您可以/应该使用该email.parser模块来解码邮件消息,例如(快速而肮脏的例子!):

from email.parser import FeedParser
f = FeedParser()
f.feed("<insert mail message here, including all headers>")
rootMessage = f.close()

# Now you can access the message and its submessages (if it's multipart)
print rootMessage.is_multipart()

# Or check for errors
print rootMessage.defects

# If it's a multipart message, you can get the first submessage and then its payload
# (i.e. content) like so:
rootMessage.get_payload(0).get_payload(decode=True)

使用 的“解码”参数Message.get_payload,模块会自动解码内容,具体取决于其编码(例如,在您的问题中引用的可打印文件)。

于 2010-10-28T07:10:31.140 回答
5

如果您使用的是 Python3.6 或更高版本,则可以使用该email.message.Message.get_content()方法自动解码文本。此方法取代get_payload(),但get_payload()仍然可用。

假设您有一个s包含此电子邮件的字符串(基于文档中的示例):

Subject: Ayons asperges pour le =?utf-8?q?d=C3=A9jeuner?=
From: =?utf-8?q?Pep=C3=A9?= Le Pew <pepe@example.com>
To: Penelope Pussycat <penelope@example.com>,
 Fabrette Pussycat <fabrette@example.com>
Content-Type: text/plain; charset="utf-8"
Content-Transfer-Encoding: quoted-printable
MIME-Version: 1.0

    Salut!

    Cela ressemble =C3=A0 un excellent recipie[1] d=C3=A9jeuner.

    [1] http://www.yummly.com/recipe/Roasted-Asparagus-Epicurious-203718

    --Pep=C3=A9
   =20

字符串中的非 ascii 字符已使用标头quoted-printable中指定的编码进行编码Content-Transfer-Encoding

创建一个电子邮件对象:

import email
from email import policy

msg = email.message_from_string(s, policy=policy.default)

此处需要设置策略;否则policy.compat32使用,它返回一个没有 get_content 方法的遗留 Message 实例。 policy.default最终将成为默认策略,但从 Python3.7 开始它仍然是policy.compat32.

get_content()方法自动处理解码:

print(msg.get_content())

Salut!

Cela ressemble à un excellent recipie[1] déjeuner.

[1] http://www.yummly.com/recipe/Roasted-Asparagus-Epicurious-203718

--Pepé

如果您有一个多部分消息,则get_content()需要在各个部分上调用,如下所示:

for part in message.iter_parts():
    print(part.get_content())
于 2018-12-22T12:29:25.473 回答
2

这就是所谓的可引用打印编码。您可能想使用类似的东西quopri.decodestring- http://docs.python.org/library/quopri.html

于 2010-10-28T05:45:45.200 回答