下午好,我正在用 Python 开发一种垃圾邮件过滤器,我已经从这个语料库下载了一些垃圾邮件和有害邮件
https://spamassassin.apache.org/publiccorpus/
这是我为读取 mbox 文件而编写的代码
import os
import mailbox
import sys
import pprint
print("Reading emails:")
for mbox_file in os.listdir(os.getcwd()+"/spam"):
print("Processing "+mbox_file)
mbox = mailbox.mbox(mbox_file)
for message in mbox:
print(message['from'])
问题是它显然无法识别文件,因为它根本不读取任何内容。我创建了一个单独的 .mbox 文件,复制其中一个文件的内容,并且它读取得很好。我还尝试使用 read() 读取文件并抛出文件不存在的错误消息。我不知道我错过了什么,任何帮助都会很好。谢谢你的时间