当我运行一个简单的 distcp 命令时:
hadoop distcp s3://src-bucket/src-dir s3://dest-bucket/dest-dir
src-dir
我对dest-dir的大小(以字节为单位)略有不同
>aws s3 --summarize s3://dest-bucket/dest-dir/
...
Total Objects: 12290
Total Size: 64911104881181
>aws s3 --summarize s3://dest-bucket/dest-dir/
...
Total Objects: 12290
Total Size: 64901040284124
我的问题是:
- 是什么导致了这种差异?我的 dest 目录的内容是否仍然与原始目录相同?
- 最重要的是 - 我是否可以设置参数以确保每个文件看起来与其 src 对应部分完全相同(即相同的文件大小)?