我阅读了亚马逊 S3DistCp的文档- 它说,
“在复制操作期间,S3DistCp 在集群上暂存一份输出到 HDFS 中的临时副本。HDFS 中必须有足够的空闲空间来暂存数据,否则复制操作会失败。另外,如果 S3DistCp 失败,它不会清理HDFS 临时目录,因此您必须手动清除临时文件。例如,如果您将 500 GB 数据从 HDFS 复制到 S3,S3DistCp 会将整个 500 GB 复制到 HDFS 的临时目录中,然后将数据从临时目录”。
这并非无关紧要,尤其是在您拥有大型 HDFS 集群的情况下。有谁知道常规 Hadoop DistCp 是否具有将文件暂存到临时文件夹中的相同行为?