1

我有一个 hadoop 0.20 map/reduce 作业,它曾经运行得很好。在过去的几天里,它卡在了 16.66% 的 reduce 阶段,当我在 jobtracker 中查看 reduce 任务时,我看到了以下错误;

Shuffle Error: Exceeded the abort failure limit; bailing-out.

谁能告诉我这意味着什么,也许可以指出正确的方向,以便我弄清楚如何解决这个问题?

4

1 回答 1

1

此错误对应于 reducer 在报告映射输出并映射到属性之前尝试获取映射输出的最大次数mapreduce.reduce.shuffle.maxfetchfailures

您可以尝试增加该属性,但默认值 10 通常已足够,因此可能会出现更严重的问题。

我记得一个与 fetch failures 类似的情况是由于/etc/hosts文件不正确造成的,在谷歌搜索后看起来这可能是问题所在,因此请尝试以下操作:

  • 使用主机名而不是 ips
  • 在所有节点上同步您的 /etc/hosts(如果您使用 Puppet 之类的东西会更容易)
  • 尝试注释掉“127.0.0.1 localhost”</li>
  • 重启集群
于 2013-01-20T16:39:17.417 回答