我在 HDFS 中有很多文件,它们都是一个 zip 文件,里面有一个 CSV 文件。我正在尝试解压缩文件,以便可以在它们上运行流式传输作业。
我试过了:
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar \
-D mapred.reduce.tasks=0 \
-mapper /bin/zcat -reducer /bin/cat \
-input /path/to/files/ \
-output /path/to/output
但是我收到一个错误(subprocess failed with code 1
)我也尝试在单个文件上运行,同样的错误。
有什么建议吗?