1

我正在解析电子邮件主题并获取多个字符串(取决于主题长度)以=?UTF-8?B?. 这是正常行为吗?如何使用一种编码将字符串连接到一个字符串?

email_message = email.message_from_string(raw_email)
print email_message['Subject']

...

=?UTF-8?B?15bXkNeqINeR15PXmden15Qg15HXodeZ16HXmdeqINeR15vXk9eZINec15TXkdeZ158g?=
 =?UTF-8?B?157Xk9eV16Ig15TXp9eZ15PXldeTINeU15bXlCDXnNeQINei15XXkdeTINeQ150g15DXoNeZINeo15U=?=
 =?UTF-8?B?16nXnSDXlNeo15HXlA==?=

编辑:

subjectDecoded, encoding = decode_header(email.utils.parseaddr(email_message['Subject'])[1])[0]
if encoding==None:
    subjectDecodedParsed = email_message['Subject']
    print 'I am NOT decoding Subject'
    print subjectDecodedParsed
else:
    subjectDecodedParsed = subjectDecoded.decode(encoding)
    print 'I am decoding subject'
    print subjectDecodedParsed.encode('utf8') #<--- Only first line will be presented here
4

1 回答 1

3

您的字符串使用MIME 标头的Quoted-printable格式进行编码。该email.header模块会为您处理此问题,前提是您的subject行使用 CRLF ( \r\n) 行分隔符正确分隔:

>>> subject = '''\
... =?UTF-8?B?15bXkNeqINeR15PXmden15Qg15HXodeZ16HXmdeqINeR15vXk9eZINec15TXkdeZ158g?=\r
...  =?UTF-8?B?157Xk9eV16Ig15TXp9eZ15PXldeTINeU15bXlCDXnNeQINei15XXkdeTINeQ150g15DXoNeZINeo15U=?=\r
...  =?UTF-8?B?16nXnSDXlNeo15HXlA==?='''
>>> from email.header import decode_header
>>> for part in decode_header(subject):
...     value = unicode(*part)
...     print part
... 
זאת בדיקה בסיסית בכדי להבין מדוע הקידוד הזה לא עובד אם אני רושם הרבה

主题(只是一个带有回车+换行符和前导空格的字符串)跨越多行以符合 MIME 标准设置的严格行长度限制。

于 2013-05-13T09:55:06.083 回答