当使用 S3 存储桶作为输入源创建新的 EMR 作业时,数据是否会自动从 S3 复制到节点上的 HDFS 中?或者数据是否仅保留在 S3 中并在 map reduce 作业需要时读取?
我的印象是后者;但是,如果数据存储在 S3 中并在预置的 EC2 实例上完成处理,这是否不违反 map reduce 的基本原则:对数据进行本地处理?与更传统的系统相反:将数据移动到处理所在的位置。
给定一个合理的大数据集(例如 1PB),这种方法的相对含义是什么,例如集群启动时间是否更长?
当使用 S3 存储桶作为输入源创建新的 EMR 作业时,数据是否会自动从 S3 复制到节点上的 HDFS 中?或者数据是否仅保留在 S3 中并在 map reduce 作业需要时读取?
我的印象是后者;但是,如果数据存储在 S3 中并在预置的 EC2 实例上完成处理,这是否不违反 map reduce 的基本原则:对数据进行本地处理?与更传统的系统相反:将数据移动到处理所在的位置。
给定一个合理的大数据集(例如 1PB),这种方法的相对含义是什么,例如集群启动时间是否更长?