我正在处理我的雷鸟 imap 目录中的一个大 (120mb) 文本文件,并尝试使用 mbox 和正则表达式从标题中提取信息。该过程运行了一段时间,直到我最终得到一个异常:“TypeError:预期的字符串或缓冲区”。
异常引用了这段代码的第五行:
PAT_EMAIL = re.compile(r"[0-9A-Za-z._-]+\@[0-9A-Za-z._-]+")
temp_list = []
mymbox = mbox("data.txt")
for email in mymbox.values():
from_address = PAT_EMAIL.findall(email["from"])
to_address = PAT_EMAIL.findall(email["to"])
for item in from_address:
temp_list.append(item) #items are added to a temporary list where they are sorted then written to file
我已经在其他(较小的)文件上运行了代码,所以我猜问题出在我的文件上。该文件似乎只是一堆文本。有人可以指出我的调试方向吗?