hadoop - 如何使用 map reduce 输出作为另一个 map reduce 作业的输入？

翻译自：https://stackoverflow.com/questions/19257698 2013-10-08T20:27:41.137

816 次

0

在第一个 map reduce 作业中，我正在处理一个 HBase 表并输出一个较小的行键列表。我需要使用这个字符串列表来处理另一个 map reduce 作业，该作业从不同的 HBase 表中提取并输出到另一个 Hbase 表。存储和访问第一个 map reduce 作业的输出的正确方法是什么？

1 回答 1

0

Hadoop 不支持将一个 MR 作业的输出流式传输到另一个。因此，第一个 MR 作业的输出必须存储在 HDFS（或其他一些持久性存储）中，然后在第二个 MR 作业中读取。使用Oozie或Azkaban创建工作的DAG。对于简单的工作流程，请使用 Hadoop 的JobControl API。

仍处于孵化器阶段的Apache Tez允许跨 MR 任务传输数据。如前所述，Tez 仍处于孵化器阶段，因此请谨慎使用。

于 2013-10-09T07:34:52.400 回答