amazon-s3 - 如何以编程方式有效地将文件从 HDFS 复制到 S3

Question

我的 hadoop 作业在 HDFS 上生成大量文件，我想编写一个单独的线程，将这些文件从 HDFS 复制到 S3。

任何人都可以向我指出任何处理它的java API。

谢谢

score 9 · Accepted Answer

“对 S3 块文件系统的支持已添加到 Hadoop 0.11.0 中的 ${HADOOP_HOME}/bin/hadoop distcp 工具中（参见 HADOOP-862）。distcp 工具设置了一个 MapReduce 作业来运行副本。使用 distcp，一个许多成员的集群可以快速复制大量数据。map任务的数量是通过计算源中的文件数来计算的：即每个map任务负责复制一个文件。源和目标可能指不同的文件系统类型。例如，源可能引用本地文件系统或以 S3 作为目标的 hdfs。”

在此处查看进出 S3 的运行批量副本http://wiki.apache.org/hadoop/AmazonS3

amazon-s3 - 如何以编程方式有效地将文件从 HDFS 复制到 S3

1 回答 1

Related

Reference