16

Python新手在这里。我想浏览一个大型 mbox 文件,解析电子邮件。我可以这样做:

import sys
import mailbox

def gen_summary(filename):
    mbox = mailbox.mbox(filename)
    for message in mbox:
       subj = message['subject']
       print subj

if __name__ == "__main__":
    if len(sys.argv) != 2:
        print 'Usage: python genarchivesum.py mbox'
        sys.exit(1)

    gen_summary(sys.argv[1])

但我需要更多的控制。我需要能够在 mbox 文件中获取给定电子邮件开头的字节位置,并且还需要获取消息中的字节数(如磁盘上所示)。然后在未来,我不需要从 mbox 文件的开头进行迭代,而是能够查找给定的消息并对其进行解析(因此需要获取磁盘上的字节位置)。这些是大型 mbox 文件,效率是一个问题。

这一切的目的是让我可以生成一个摘要文件,其中包含有关 mbox 中每封电子邮件的一些小信息,然后在将来有效地查找 mbox 中的各个电子邮件。

4

1 回答 1

9

我没有测试过这个,但这样的东西可能对你有用。只需打开文件(以二进制模式,以便您的字节数正确),然后扫描它,找到消息。

def is_mail_start(line):
    return line.startswith("From ")

def build_index(fname):
    with open(fname, "rb") as f:
        i = 0
        b = 0
        # find start of first message
        for line in f:
            b += len(line)
            if is_mail_start(line):
                break
        # find start of each message, and yield up (index, length) of previous message
        for line in f:
            if is_mail_start(line):
                yield (i, b)
                i += b
                b = 0
            b += len(line)
        yield (i, b) # yield up (index, length) of last message

# get index as a list
mbox_index = list(build_index(fname))

获得索引后,您可以使用.seek()文件对象上的方法在其中查找,并.read(length)在文件对象上仅读取一条消息。不过,我不确定您将如何使用mailbox带有字符串的模块;我认为它旨在就地处理邮箱。也许您可以使用其他一些邮件解析模块。

于 2012-04-20T20:01:46.370 回答