在第一个 map reduce 作业中,我正在处理一个 HBase 表并输出一个较小的行键列表。我需要使用这个字符串列表来处理另一个 map reduce 作业,该作业从不同的 HBase 表中提取并输出到另一个 Hbase 表。存储和访问第一个 map reduce 作业的输出的正确方法是什么?
问问题
816 次
1 回答
0
Hadoop 不支持将一个 MR 作业的输出流式传输到另一个。因此,第一个 MR 作业的输出必须存储在 HDFS(或其他一些持久性存储)中,然后在第二个 MR 作业中读取。使用Oozie或Azkaban创建工作的DAG。对于简单的工作流程,请使用 Hadoop 的JobControl API。
仍处于孵化器阶段的Apache Tez允许跨 MR 任务传输数据。如前所述,Tez 仍处于孵化器阶段,因此请谨慎使用。
于 2013-10-09T07:34:52.400 回答