我在 HDFS 中有以下 2 个文件和 1 个目录。
-rw-r--r-- 1 hadoop hadoop 11194859 2017-05-05 19:53 hdfs:///outputfiles/abc_output.txt
drwxr-xr-x - hadoop hadoop 0 2017-05-05 19:28 hdfs: ///outputfiles/sample_directory
-rw-r--r-- 1 hadoop hadoop 68507436 2017-05-05 19:55 hdfs:///outputfiles/sample_output.txt
我想通过单个命令将 gzip 格式的 abc_output.txt 和 sample_directory 从 HDFS 复制到 S3 上。我不希望在 S3 上合并文件。
我的 S3 存储桶应包含以下内容:abc_output.txt.gzip sample_directory.gzip
我尝试了以下方法:
s3-dist-cp --s3Endpoint=s3.amazonaws.com --src=hdfs:///outputfiles/ --dest=s3://bucket-name/outputfiles/ --outputCodec=gzip
但这会将所有文件和文件夹从源复制到目标。
通过在 EMR 上引用 在运行时推断 HDFS 路径,我还尝试了以下命令:
s3-dist-cp --s3Endpoint=s3.amazonaws.com --src=hdfs:///outputfiles/ --dest=s3://bucket-name/outputfiles/ --srcPattern=.*abc_output.txt。样本目录。--outputCodec=gzip 但这失败了。