1

作业 j 由“M”个 map 任务和“R”个 reduce 任务组成。

M(1) M(2)...... Map(m)
 Reduce(1) Reduce(2) ... Reduce(R)

您如何知道 map 和 reduce 任务之间的顺序?我们知道 Map 任务的输出将是 Reduce 任务的输入。但是如果我想模拟排序我应该怎么做呢?例如

M1 M2 M3

R1 R2

是否可以将“M1”和“M2”的输出作为“R1”的输入,将“M3”的输出作为“R2”的输入?在实际情况下如何排序?

4

1 回答 1

1

您通过以下方式订购映射器和减速器:

  • 使用特定的映射器和减速器配置作业,以及
  • 定义工作流

一个作业可以有任意数量的映射器和减速器。您可以使用脚本或 oozie 工作流显式定义作业依赖关系,也可以让工作流管理器(Azkaban、oozie 等)根据哪个作业的映射器使用哪些作业缩减器的输出来计算依赖关系。

于 2012-11-29T04:12:39.873 回答