java - Hadoop MapReduce：在shuffle和reduce阶段处理的数据大小

Question

我在包含多个 AWS 实例的集群上运行 Hadoop MapReduce Java 应用程序。我想知道在洗牌阶段是否有可能知道数据集的大小，即总共有多少数据被洗牌。此外，是否有可能知道每个 reducer 任务处理了多少数据？

score 3 · Accepted Answer

您应该能够从 JobTracker Web UI 中找到此信息。

有一个名为“Reduce shuffle bytes”的计数器详细说明了被洗牌的总字节数 - 请参阅https://issues.apache.org/jira/browse/HADOOP-4845和原始链接票证以获取更多信息。

对于每个 reducer 计数，向下钻取到已完成的 reducer 任务，并针对该任务单独检查此计数器

score 0 · Accepted Answer

您可以转到 AWS EMR 作业屏幕并选择作业，然后单击“调试”按钮。在那里您可以查看您的系统日志文件。它包含有关 Map 和 Reduce 任务的所有信息。转储所有计数器的值，例如“减少随机字节数”、“映射输出记录”等。您还可以在 syslog 中查看程序执行所用的确切时间以及 Map 任务失败的数量。

希望这可以帮助。我建议当您在 AWS 上创建作业时，设置 Debug 选项以便您可以看到此文件（如果您还没有这样做的话）。

java - Hadoop MapReduce：在shuffle和reduce阶段处理的数据大小

2 回答 2

Related

Reference