12

我有一个完全来自 .msg 文件的 Outlook 电子邮件帐户的大量数据转储。对 ubuntu 的 file 方法的快速调用显示它们是 Composite Document File V2 Documents(不管是什么意思)。我真的很希望能够以纯文本形式读取这些文件。这有可能吗?

更新:事实证明,在这类文件上进行大规模数据挖掘并不是完全可能的,这很糟糕。如果您遇到同样的问题,我创建了一个库来解决这个问题。https://github.com/Slater-Victoroff/msgReader

文档不是很好,但它是一个非常小的库,所以它应该是不言自明的。

4

1 回答 1

12

今天早上我遇到了同样的问题。我没有找到有关文件格式的任何信息,但可以使用字符串和 grep 从文件中提取所需信息:

strings -e l *.msg | grep pattern

-el(这是一个小 L)从 UTF-16 转换而来。

这仅在您可以从文件中 grep 所需数据时才有效(即所有必需的行都包含标准字符串或模式)。

于 2013-03-13T10:27:21.740 回答