hadoop - Amazon EMR 框架是否会在 MapReduce 作业中使用之前从 S3 复制数据

Question

我注意到当输入位置是 S3 中的文件时，在调用 EMR 作业和实际开始数据的 mapreduce 处理之间有很长的等待时间。我的问题是，EMR 是直接在本地 S3 文件系统中的数据上运行，还是将数据复制到已配置的 EC2 机器（在 EMR 集群中）的 HDFS 集群中，在这种情况下需要大量复制数据的时间？

score 2 · Accepted Answer

S3 是一种存储机制，所以它肯定不能处理数据。因此，在 MR 作业中处理之前，必须将数据复制到 EC2 节点。

hadoop - Amazon EMR 框架是否会在 MapReduce 作业中使用之前从 S3 复制数据

1 回答 1

Related

Reference