1

奇怪的问题在这里。

我使用 Python 99% 的时间都可以毫无问题地解析收到的电子邮件。最近出现了一个新问题,我的脚本无法确定从某些客户端发送的传入电子邮件地址是什么,例如 iPhone 上的内置电子邮件客户端。我的调试脚本会将 ["From"] 键列为不带电子邮件地址的名称。

我的期望:

Ryan Martin <ryan@grouped.com>

我在日志中看到的内容(以及我的脚本试图处理的内容):

Ryan Martin

但是,如果我将日志发短信到我的手机,我会看到它正确列为

Ryan Martin <ryan@grouped.com>

所以我的第一个想法是电子邮件地址被编码在我没有正确检测到的东西中。我知道这些信息在那里,因为我可以在手机上看到它。Python 脚本认为它是空白的,当保存到日志时它是空白的。

我正在解析电子邮件并使用以下代码进行测试:

parser = HeaderParser()
msg = parser.parsestr(self.message_as_string)
print msg["From"]

我假设发件人名称是 ascii 并且实际的括号内的电子邮件地址是用其他东西编码的,但我不确定。

所以我的问题是:

如何确定发件人(“发件人”)的编码方式以及如何将其转换为我可以使用的东西?

一如既往,谢谢。

这是标题的示例:

['Received: (qmail 16170 invoked by uid 110); 14 Jun 2012 10:49:02 -0700\n', 'Delivered-To: 1-etest@grouped.com\n', 'Received: (qmail 16167 invoked from network); 14 Jun 2012 10:49:02 -0700\n', 'Received: from mail-pz0-f46.google.com (209.85.210.46)\n', '  by grouped.com with (RC4-MD5 encrypted) SMTP; 14 Jun 2012 10:49:02 -0700\n', 'Received: by dady13 with SMTP id y13so2807279dad.5\n', '        for <etest@grouped.com>; Thu, 14 Jun 2012 10:49:01 -0700 (PDT)\n', 'DKIM-Signature: v=1; a=rsa-sha256; c=relaxed/relaxed;\n', '        d=gmail.com; s=20120113;\n', '        h=subject:references:from:content-type:x-mailer:in-reply-to\n', '         :message-id:date:to:content-transfer-encoding:mime-version;\n', '        bh=8ta00o/UsoBbe+qrLFMT/1rE1AHRZyQSK1Az6Ve7ffE=;\n', '        b=A4aSj5duxG4nWr1+Dn/X614kOMJWq+nYo6jo7ntsXNCZquoxPW/+1FBVXs96Qi73cR\n', '         jW5sIO33mCe1fsRQvDn+9Mp/i9kSNwzGX/+QwseBGy78bNf2ZDxDhbJZ7nKm9qlsvc2x\n', '         j9m/j8mZG7/j3ruz1b9O+j1KwCqzzl9Lgqj
 Lx0af7/MCEHVfE4rIpJsOBOzUJR8EA8MJ\n', '         5LvtdKxS3/8cqKX92plziGOWMiRjI+euBE3apHou7PUM9/BpHD4o2LH1OjSQKo6sVNmt\n', '         8CiB5vw3UvNDU+nMgjWcvirJsE8xzXDqkulbDiyI5Ba5QagfpwAKUb/OQpDlkY4gK+Bv\n', '         fTsg==\n', 'Received: by 10.68.225.6 with SMTP id rg6mr10617173pbc.100.1339696141712;\n', '        Thu, 14 Jun 2012 10:49:01 -0700 (PDT)\n', 'Return-Path: <some_sender@gmail.com>\n', 'Received: from [10.230.186.251] (125.sub-174-254-212.myvzw.com. [174.254.212.125])\n', '        by mx.google.com with ESMTPS id ol1sm10204626pbb.25.2012.06.14.10.48.53\n', '        (version=SSLv3 cipher=OTHER);\n', '        Thu, 14 Jun 2012 10:49:00 -0700 (PDT)\n', 'Subject: Re: Prempus Patterson replied to a post on etest\n', 'References: <20120614173822.12044.qmail@grouped.com>\n', 'From: Ryan Martin <some_sender@gmail.com>\n', 'Content-Type: multipart/alternative;\n', '\tboundary=Apple-Mail-17F5BF62-A532-49C2-BF72-499A1EEB510E\n', 'X-Mailer: iPhone Mail (10A5316k)\n', 'In-Reply-To: <
 20120614173822.12044.qmail@grouped.com>\n', 'Message-Id: <8321D4D0-E41A-4A1C-87DC-D7A2E462AC6A@gmail.com>\n', 'Date: Thu, 14 Jun 2012 10:48:48 -0700\n', 'To: Prempus Patterson <etest@grouped.com>\n', 'Content-Transfer-Encoding: 7bit\n', 'Mime-Version: 1.0 (1.0)\n', '\n', '\n', '--Apple-Mail-17F5BF62-A532-49C2-BF72-499A1EEB510E\n']
4

2 回答 2

0

找到一种方法将原始(离线)消息保存到文件中,并在十六进制编辑器中打开它。

或者,更直接地,在wireshark 中捕获传入的消息并查看From:行中的字节。然后你会看到标题中是否有一些奇怪的字符会弄乱解析器。

于 2012-06-14T20:30:26.600 回答
0

不幸的是,我不确定究竟是什么导致了我的问题,但我确实找到了一个目前有效的解决方案。振作起来,有点难看:

    # At this point, we know there is a < bracket in the 'From' value
    acceptable_chars = ["a", "b", "c", ... "6", "7", "8", "9", "0", "_", ".", "@"]
    from_str = msg["From"].lower().split("<")[-1]

    stripped_from = ''
    for letter in from_str:
        if letter in acceptable_chars:
            stripped_from += letter

    return stripped_from

我不知道脚本为什么或如何能够以这种方式理解编码信息,但在评估整个字符串时不知道。我想这是因为在名称之后但在第一个括号之前有一个隐藏的 unicode 字符。

无论哪种方式,它都有效,但我愿意接受重写或其他建议。

于 2012-06-14T21:27:12.983 回答