我需要链接多个 MapReduce 流作业,以便对大型数据集执行一些计算。
我打算为每个工作使用多个减速器,以加快整体工作。作为工作流调度程序,我使用 Oozie。
这是一个说明我的问题的插图:假设我有两个文件
File 1: File 2:
A B 1 A B 3
A C 4 C D 6
B D 2 B D 1
我想要两个映射器和两个化简器,并为 MapReduce 作业获得以下输出:
Output:
A B 4
A C 4
B D 3
C D 6
但这根本不是我得到的,而是我有部分金额。
这是我认为会发生的事情。
由于每个 MapReduce 作业都有多个 reducer,因此下一个作业的输入被拆分为多个文件。这些文件被提供给映射器,然后映射器将它们的输出发送到减速器。似乎映射器将其输出发送到化简器,而无需等待整个输入被处理并使用 name1 进行排序,例如,作为键。
我已经阅读了几个关于使用多个文件作为输入的线程,我认为这不是执行映射侧连接的问题。也许它与分区有关,但我还没有完全理解分区的含义。
有没有办法在将几个映射器的输出发送到减速器之前对其进行排序?或者我可以告诉 Oozie 合并几个 reducer 的输出,以便只有一个文件作为下一个 MapReduce Job 的输入?