为了开发邮件客户端,我需要一个非常大的 mbox 测试文件,其中包含尽可能多的邮件。最好 >100.000 封邮件 (>10GB)。
它应该是真实的邮件数据,因为我不仅要测试性能,还要测试邮件过滤器和搜索。
提前感谢任何提示在哪里可以得到这样的东西。
其他几个选项:
安然电子邮件语料库,包含 210 GB 的电子邮件。它是多种电子邮件格式,但应该易于阅读。
作为 FERC 西部能源市场调查的一部分,公开发布的安然电子邮件数据由 EDRM 转换为行业标准格式。该数据集由 1,227,255 封电子邮件和 493,384 个附件组成,涵盖 151 位保管人。电子邮件以 Microsoft PST、IETF MIME 和 EDRM XML 格式提供。
Apache 软件基金会公共邮件档案(200 GB)
截至 2011 年 7 月 11 日的所有公开可用的 Apache 软件基金会邮件档案的集合
此集合包含来自 ASF 80 多个项目的所有公开可用的电子邮件档案
您可以使用搜索引擎收集.mbox文本文件。例如,谷歌搜索filetype:mbox pipermail
会产生大量 .mbox 数据。而不是 pipermail,它from
用作搜索字符串。
可以连接单个 .mbox 文件:
cat mboxfile1 > mboxfile
echo >> mboxfile
cat mboxfile2 >> mboxfile
ps 这不是不道德的数据,而是你用它做什么。请遵纪守法!
也许您可以使用自己的邮箱并多次复制。例如,您设置一个邮件帐户并使用 IMAP 或使用文件系统多次复制所有电子邮件,但这取决于您使用的数据格式。