mapreduce - 使用 AWS Elastic MapReduce EMR 的 MapReduce 作业 - 为什么 648 MB 输入被拆分为 27 个地图任务？

翻译自：https://stackoverflow.com/questions/56032679 2019-05-08T02:20:04.833

55 次

我使用 AWS EMR（Hadoop 流）处理 9 个文本文件中的 648 MB 输入数据（每个大约 72 MB 存储在 s3 中）。我认为它将数据分成 64MB 或 128MB 块，但日志说它分成 27 个地图任务（我认为一个地图任务使用一个映射器，对吗？）有人可以解释发生了什么。我也不明白为什么整个作业的 CPU 时间每次都不同。

另外，在我看来，EMR 与 Hadoop 有很大不同，如何计算 EMR 应使用的实例数？如果我使用 s3 进行数据存储，我认为我不需要担心复制因素，对吧？

mapreduce - 使用 AWS Elastic MapReduce EMR 的 MapReduce 作业 - 为什么 648 MB 输入被拆分为 27 个地图任务？

0 回答 0

Related

Reference