8

我的 hadoop 作业在 HDFS 上生成大量文件,我想编写一个单独的线程,将这些文件从 HDFS 复制到 S3。

任何人都可以向我指出任何处理它的java API。

谢谢

4

1 回答 1

9

“对 S3 块文件系统的支持已添加到 Hadoop 0.11.0 中的 ${HADOOP_HOME}/bin/hadoop distcp 工具中(参见 HADOOP-862)。distcp 工具设置了一个 MapReduce 作业来运行副本。使用 distcp,一个许多成员的集群可以快速复制大量数据。map任务的数量是通过计算源中的文件数来计算的:即每个map任务负责复制一个文件。源和目标可能指不同的文件系统类型。例如,源可能引用本地文件系统或以 S3 作为目标的 hdfs。”

在此处查看进出 S3 的运行批量副本http://wiki.apache.org/hadoop/AmazonS3

于 2010-09-16T02:30:43.943 回答