1

我使用 AWS EMR(Hadoop 流)处理 9 个文本文件中的 648 MB 输入数据(每个大约 72 MB 存储在 s3 中)。我认为它将数据分成 64MB 或 128MB 块,但日志说它分成 27 个地图任务(我认为一个地图任务使用一个映射器,对吗?)有人可以解释发生了什么。我也不明白为什么整个作业的 CPU 时间每次都不同。

另外,在我看来,EMR 与 Hadoop 有很大不同,如何计算 EMR 应使用的实例数?如果我使用 s3 进行数据存储,我认为我不需要担心复制因素,对吧?

4

0 回答 0