1

使用 pig 或 hadoop 流,有没有人加载和解压缩压缩文件?原始 csv 文件是使用 pkzip 压缩的。

4

1 回答 1

1

不确定这是否有帮助,因为它主要专注于在 Java 中使用 MapReduce,但是 hadoop 中有一个 ZipFileInputFormat 可用。这里描述了它通过 Java API 的使用:

http://cotdp.com/2012/07/hadoop-processing-zip-files-in-mapreduce/

主要部分是 ZipFileRecordReader,它使用 Java 的 ZipInputStream 来处理每个 ZipEntry。Hadoop 阅读器可能无法开箱即用,因为它将每个 ZipEntry 的文件路径作为键传递,将 ZipEntry 的内容作为值传递。

于 2012-10-05T01:42:10.957 回答