6

为了开发邮件客户端,我需要一个非常大的 mbox 测试文件,其中包含尽可能多的邮件。最好 >100.000 封邮件 (>10GB)。

它应该是真实的邮件数据,因为我不仅要测试性能,还要测试邮件过滤器和搜索。

提前感谢任何提示在哪里可以得到这样的东西。

4

3 回答 3

5

其他几个选项:

安然电子邮件语料库,包含 210 GB 的电子邮件。它是多种电子邮件格式,但应该易于阅读。

作为 FERC 西部能源市场调查的一部分,公开发布的安然电子邮件数据由 EDRM 转换为行业标准格式。该数据集由 1,227,255 封电子邮件和 493,384 个附件组成,涵盖 151 位保管人。电子邮件以 Microsoft PST、IETF MIME 和 EDRM XML 格式提供。

Apache 软件基金会公共邮件档案(200 GB)

截至 2011 年 7 月 11 日的所有公开可用的 Apache 软件基金会邮件档案的集合

此集合包含来自 ASF 80 多个项目的所有公开可用的电子邮件档案

亚马逊链接

于 2014-12-23T08:20:16.523 回答
5

您可以使用搜索引擎收集.mbox文本文件。例如,谷歌搜索filetype:mbox pipermail会产生大量 .mbox 数据。而不是 pipermail,它from用作搜索字符串。

可以连接单个 .mbox 文件:

cat mboxfile1 > mboxfile
echo >> mboxfile
cat mboxfile2 >> mboxfile

ps 这不是不道德的数据,而是你用它做什么。请遵纪守法!

于 2014-01-08T10:17:10.723 回答
0

也许您可以使用自己的邮箱并多次复制。例如,您设置一个邮件帐户并使用 IMAP 或使用文件系统多次复制所有电子邮件,但这取决于您使用的数据格式。

于 2012-06-23T18:20:29.600 回答