hadoop - Amazon EMR：为每个 EMR 实例设置唯一数量的映射器和缩减器

Question

我正在运行一个包含 M 个核心实例和 N 个任务实例的 Amazon EMR 集群。

我的作业每天运行多次并且对时间很敏感，因此我保持 M 核心实例 24/7 不间断运行，这样我就没有与 S3 之间的数据传输开销。

N 个任务节点正在根据需要动态启动和终止。

M 个核心节点是 c1.mediums，N 个任务节点是 m2.xlarge。

有没有办法为每个实例配置 mapred.tasktracker.map.tasks.maximum 和 mapred.tasktracker.reduce.tasks.maximum ？

对于我想要的核心节点： mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=1

对于我至少想要的任务节点： mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=2

请注意，任务跟踪器也在核心节点上运行，因此我认为此配置需要基于每个实例，具体取决于实例大小。

这可能吗？如果是这样，我该如何设置这种类型的配置？

score -1 · Accepted Answer

请注意，您可能需要在任务节点中使用 ssh 进行一些操作。它不会像那样工作。

我会将我的 pem 文件放到本地目录中。

chmod 400 在那个 pem 文件上

然后做“scp -l hadoop -i .pem 然后剩下的”

正如博客中提到的，请注意，我还没有尝试过，但我相信它会起作用。另外 - .versions... 的东西可能不需要。你可能只需要conf。

谢谢

1 回答 1