我正在运行一个包含 M 个核心实例和 N 个任务实例的 Amazon EMR 集群。
我的作业每天运行多次并且对时间很敏感,因此我保持 M 核心实例 24/7 不间断运行,这样我就没有与 S3 之间的数据传输开销。
N 个任务节点正在根据需要动态启动和终止。
M 个核心节点是 c1.mediums,N 个任务节点是 m2.xlarge。
有没有办法为每个实例配置 mapred.tasktracker.map.tasks.maximum 和 mapred.tasktracker.reduce.tasks.maximum ?
对于我想要的核心节点: mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=1
对于我至少想要的任务节点: mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=2
请注意,任务跟踪器也在核心节点上运行,因此我认为此配置需要基于每个实例,具体取决于实例大小。
这可能吗?如果是这样,我该如何设置这种类型的配置?