因此,我正在从 Eudora 解析一个 .mozeml 文件并将它们转换为 mbox 文件(mbox 已损坏并被删除,但 mozeml 文件仍然存在,但无法导入它们)。有超过 200,000 封电子邮件,并且不确定什么是正确处理此问题的好方法。
我正在考虑创建一个 Java 程序,它将读取 .mozeml 文件(它们是 xml,utf-8 格式)解析数据,然后以这种格式编写一个 mbox 文件http://en.wikipedia.org/wiki/ Mbox#家庭。
问题只是 xml 文件没有将 To 行和消息分开;它只是一个完整的字符串。我不完全确定如何正确处理。
例如,这是消息的外观
"Joe 1" <joe1@gmail.com>joe2@gmail.comHello this is an e-mail...
或者
"Joe 1" <joe1@gmail.com>"Joe 2" <joe2@gmail.com>Hello this is an e-mail...
有很多测试用例可以检查它是否是.com/.net/com.hk/.co.jp/etc。对于第一个。第二个更容易一些,因为 to 行的结尾是 >。所以,我不确定第一个案例,并确保它对于 200,000 封电子邮件是准确的。