使用 pig 或 hadoop 流,有没有人加载和解压缩压缩文件?原始 csv 文件是使用 pkzip 压缩的。
问问题
2623 次
1 回答
1
不确定这是否有帮助,因为它主要专注于在 Java 中使用 MapReduce,但是 hadoop 中有一个 ZipFileInputFormat 可用。这里描述了它通过 Java API 的使用:
http://cotdp.com/2012/07/hadoop-processing-zip-files-in-mapreduce/
主要部分是 ZipFileRecordReader,它使用 Java 的 ZipInputStream 来处理每个 ZipEntry。Hadoop 阅读器可能无法开箱即用,因为它将每个 ZipEntry 的文件路径作为键传递,将 ZipEntry 的内容作为值传递。
于 2012-10-05T01:42:10.957 回答