optimization - Hadoop 计数器 - 调整和优化

Question

我刚刚写了我的第一份 hadoop 工作。它处理许多文件并为每个输入文件生成多个输出文件。我在一个两节点集群上运行它，我最大的输入集大约需要 10 分钟。看看下面的计数器，我可以做哪些优化来让它运行得更快？在这些计数器中是否有任何具体的指标？

在此处输入图像描述

版本：2.0.0-mr1-cdh4.1.2

地图任务容量：20

减少任务容量：20

每个节点的平均任务：20

score 1 · Accepted Answer

我们可以在这里看到，大部分数据减少发生在映射阶段（映射输出字节数比 HDFS 读取字节数少得多，映射输入记录也是如此 - 它比映射输入记录低得多）。我们还看到花费了大量的 CPU 时间。我们还看到混洗字节的数量很少
所以这项工作是：
a）在 Map 阶段完成了大量的数据缩减。
b) 作业受 CPU 限制。

所以我认为应该优化mapper和reducer的代码。I/O 对这项工作可能并不重要。

optimization - Hadoop 计数器 - 调整和优化

1 回答 1

Related

Reference