hadoop - Hadoop reducer 错误：“Shuffle 错误：超过了中止失败限制；救助”

Question

我有一个 hadoop 0.20 map/reduce 作业，它曾经运行得很好。在过去的几天里，它卡在了 16.66% 的 reduce 阶段，当我在 jobtracker 中查看 reduce 任务时，我看到了以下错误；

Shuffle Error: Exceeded the abort failure limit; bailing-out.

谁能告诉我这意味着什么，也许可以指出正确的方向，以便我弄清楚如何解决这个问题？

score 1 · Accepted Answer

此错误对应于 reducer 在报告映射输出并映射到属性之前尝试获取映射输出的最大次数mapreduce.reduce.shuffle.maxfetchfailures。

您可以尝试增加该属性，但默认值 10 通常已足够，因此可能会出现更严重的问题。

我记得一个与 fetch failures 类似的情况是由于/etc/hosts文件不正确造成的，在谷歌搜索后看起来这可能是问题所在，因此请尝试以下操作：

1 回答 1