我正在尝试使用 s3distcp 来编译很多小的 gzip 文件,不幸的是这些文件没有以gz
扩展名结尾。s3distcp 有一个outputCodec
可用于压缩输出的参数,但没有对应的inputCodec
. 我正在尝试使用--jobconf
hadoop 流调用,但它似乎没有做任何事情(输出仍然是 gzip 压缩的)。我正在使用的命令是
hadoop jar lib/emr-s3distcp-1.0.jar -Dstream.recordreader.compression=gzip \
--src s3://inputfolder --dest hdfs:///data
任何想法可能会发生什么?我正在运行 AWS EMR AMI-3.9。