hadoop - MIT StarCluster 和 S3

Question

我正在尝试在现场实例上运行 mapreduce 作业。我使用 StarClusters 及其 hadoop 插件启动我的实例。我上传数据没有问题，然后将其放入 HDFS，然后将结果从 HDFS 复制回来。我的问题是有没有办法直接从 s3 加载数据并将结果推回 s3？（我不想手动将数据从 s3 下载到 HDFS 并将结果从 HDFS 推送到 s3，有没有办法在后台进行）？

我正在使用标准的 MIT starcluster ami

score 1 · Accepted Answer

你不能这样做，但你可以编写一个脚本来做到这一点。例如，您可以使用：hadoop distcp s3n://ID:key@mybucket/file /user/root/file 将文件直接从 s3 放到 hdfs

hadoop - MIT StarCluster 和 S3

1 回答 1

Related

Reference