1

我对 Hadoop Map/Reduce 框架中的组合器功能有疑问。组合器操作仅适用于映射任务输出的键值对或发生在给定节点上的所有映射任务。事实上,我已经做了一些测试,它似乎是第一个。如果我是对的,根据您的说法,为什么选择这种行为,因为知道组合所有地图任务输出对于减少带宽使用非常有益。

提前致谢

4

1 回答 1

0
  • 它如何知道所有地图任务何时完成?TaskTracker 不知道 JobTracker 将如何分配地图任务。在运行组合器之前,您可能必须等待所有地图任务完成。
  • 您仍然希望保持映射器和减速器之间的数据流移动。随着组合器的运行和输出的创建,这些数据立即开始被混洗到减速器(除非将慢启动配置设置为较高的值)。这很好,因为它随着时间的推移分散了网络利用率。
于 2013-10-24T14:19:13.657 回答