0

有大量数据的hadoop map-red作业。地图阶段需要很长时间才能完成(约 2-3 天)。它完成了。

但该任务在减少阶段以约 92% 的速度失败。是否可以检索成功的映射任务执行的输出/计算,以便只需要重新运行 reduce 阶段?

运行Hadoop 1.2.1、Java7、单节点linux系统。

4

1 回答 1

0

不,这是不可能的。如果您的映射器的逻辑是计算密集型的(而不是大量的 IO),您可以使用MultithreadedMapper进行多线程处理,或者尝试将您的作业分成两个作业。然后,第二个作业将只是“身份映射”更长运行的前一个作业的输出。

于 2013-11-02T08:49:18.540 回答