我正在使用MAPI工具(它的 microsoft lib 和 .NET 中),然后使用apache TIKA库来处理并从 Exchange 服务器中提取pst,这是不可扩展的。
如何使用 MR 方式处理/提取 pst ... java 中是否有任何可用的工具、库可以在我的 MR 工作中使用。任何帮助都会很棒。
Jpst Lib 内部使用:PstFile pstFile = new PstFile(java.io.File)
问题在于Hadoop API的我们没有任何接近的东西java.io.File
。
以下选项始终存在但效率不高:
File tempFile = File.createTempFile("myfile", ".tmp");
fs.moveToLocalFile(new Path (<HDFS pst path>) , new Path(tempFile.getAbsolutePath()) );
PstFile pstFile = new PstFile(tempFile);