我有一个 hadoop 0.20 map/reduce 作业,它曾经运行得很好。在过去的几天里,它卡在了 16.66% 的 reduce 阶段,当我在 jobtracker 中查看 reduce 任务时,我看到了以下错误;
Shuffle Error: Exceeded the abort failure limit; bailing-out.
谁能告诉我这意味着什么,也许可以指出正确的方向,以便我弄清楚如何解决这个问题?
此错误对应于 reducer 在报告映射输出并映射到属性之前尝试获取映射输出的最大次数mapreduce.reduce.shuffle.maxfetchfailures
。
您可以尝试增加该属性,但默认值 10 通常已足够,因此可能会出现更严重的问题。
我记得一个与 fetch failures 类似的情况是由于/etc/hosts文件不正确造成的,在谷歌搜索后看起来这可能是问题所在,因此请尝试以下操作: