运行类似wordcount 的mapreduce 程序时出现奇怪的错误。我有一个有 20 个从站的 hadoop 集群,每个从站有 4 GB RAM。我将 map 任务配置为 300MB 堆,reduce 任务槽获得 1GB。我每个节点有 2 个映射槽和 1 个减少槽。一切顺利,直到第一轮地图任务完成。然后进度保持在 100%。我想那时正在复制阶段。每个地图任务都会生成如下内容:
Map output bytes 4,164,335,564
Map output materialized bytes 608,800,675
(我正在使用 SnappyCodec 进行压缩)
在停止大约一个小时后,reduce 任务崩溃,但有以下异常:
Error: java.lang.OutOfMemoryError: Java heap space at
org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.shuffleInMemory(ReduceTask.java:1703) at
org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.getMapOutput(ReduceTask.java:1563) at
org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.copyOutput(ReduceTask.java:1401) at
org.apache.hadoop.mapred.ReduceTask$ReduceCopier$MapOutputCopier.run(ReduceTask.java:1333
我在谷歌上搜索并找到了这个链接,但我真的不知道该怎么做: hadoop common link
我不明白如果 hadoop 能够执行 terasort 基准测试,为什么它会在复制和合并时遇到任何问题。不可能所有的 map 输出都应该适合 reducer 线程的 RAM。那么这里发生了什么?
在上面提供的链接中,他们讨论了调整以下参数:
mapreduce.reduce.shuffle.input.buffer.percent = 0.7
mapreduce.reduce.shuffle.memory.limit.percent = 0.25
mapreduce.reduce.shuffle.parallelcopies = 5
他们声称参数的乘积大于 1 的事实允许堆大小错误。编辑:请注意 5*1.25*0.7 仍然 <1,所以请关注我的第二个解决方案帖子!)在重新开始这个密集的模拟之前,我很高兴听到有人对我面临的问题的看法,因为它几乎困扰了现在一周。我似乎也不完全理解这个复制阶段发生了什么,我希望磁盘上的合并排序不需要太多堆大小?
非常感谢您提供任何有用的评论和答案!