0

我刚刚写了我的第一份 hadoop 工作。它处理许多文件并为每个输入文件生成多个输出文件。我在一个两节点集群上运行它,我最大的输入集大约需要 10 分钟。看看下面的计数器,我可以做哪些优化来让它运行得更快?在这些计数器中是否有任何具体的指标?

在此处输入图像描述

版本:2.0.0-mr1-cdh4.1.2

地图任务容量:20

减少任务容量:20

每个节点的平均任务:20

4

1 回答 1

1

我们可以在这里看到,大部分数据减少发生在映射阶段(映射输出字节数比 HDFS 读取字节数少得多,映射输入记录也是如此 - 它比映射输入记录低得多)。我们还看到花费了大量的 CPU 时间。我们还看到混洗字节的数量很少
所以这项工作是:
a)在 Map 阶段完成了大量的数据缩减。
b) 作业受 CPU 限制。

所以我认为应该优化mapper和reducer的代码。I/O 对这项工作可能并不重要。

于 2013-01-25T19:06:07.610 回答