我刚刚写了我的第一份 hadoop 工作。它处理许多文件并为每个输入文件生成多个输出文件。我在一个两节点集群上运行它,我最大的输入集大约需要 10 分钟。看看下面的计数器,我可以做哪些优化来让它运行得更快?在这些计数器中是否有任何具体的指标?
版本:2.0.0-mr1-cdh4.1.2
地图任务容量:20
减少任务容量:20
每个节点的平均任务:20
我刚刚写了我的第一份 hadoop 工作。它处理许多文件并为每个输入文件生成多个输出文件。我在一个两节点集群上运行它,我最大的输入集大约需要 10 分钟。看看下面的计数器,我可以做哪些优化来让它运行得更快?在这些计数器中是否有任何具体的指标?
版本:2.0.0-mr1-cdh4.1.2
地图任务容量:20
减少任务容量:20
每个节点的平均任务:20