我有兴趣在 MapReduce 执行的特定阶段对 Hadoop 集群进行基准测试。也就是说,我希望在 map 阶段、shuffle 阶段和 reduce 阶段之间有一个清晰的分离。
有没有办法在所有地图任务完成之前避免洗牌或减少任何东西,并在所有洗牌完成之前避免减少?我不关心对执行时间的影响,因为我只对每个阶段的资源消耗感兴趣。
我看到另一篇关于通过在不应该减少的节点和不应该映射的节点上设置mapred.tasktracker.reduce.tasks.maximum
来分离特定节点上的任务的帖子,但在这种情况下,映射和减少任务仍然同时运行,我也不能在每个阶段使用我的完整集群。0
mapred.tasktracker.map.tasks.maximum
0
谢谢!