1

我注意到当输入位置是 S3 中的文件时,在调用 EMR 作业和实际开始数据的 mapreduce 处理之间有很长的等待时间。我的问题是,EMR 是直接在本地 S3 文件系统中的数据上运行,还是将数据复制到已配置的 EC2 机器(在 EMR 集群中)的 HDFS 集群中,在这种情况下需要大量复制数据的时间?

4

1 回答 1

2

S3 是一种存储机制,所以它肯定不能处理数据。因此,在 MR 作业中处理之前,必须将数据复制到 EC2 节点。

于 2013-10-15T06:17:11.057 回答