我想知道是否可以定义分层 MapReduce 作业?换句话说,我想要一个 map-reduce 作业,在 mapper 阶段将调用一个不同的 MapReduce 作业。可能吗?你有什么建议吗?
我想这样做是为了在我的程序中具有更高级别的并行性/分布。谢谢,阿里克。
我想知道是否可以定义分层 MapReduce 作业?换句话说,我想要一个 map-reduce 作业,在 mapper 阶段将调用一个不同的 MapReduce 作业。可能吗?你有什么建议吗?
我想这样做是为了在我的程序中具有更高级别的并行性/分布。谢谢,阿里克。
Hadoop 权威指南包含许多与 MapReduce 作业链相关的秘诀,包括示例代码和详细说明。特别是被称为“高级 API 使用”或类似内容的章节。
我个人成功地用几个 HBase 表替换了复杂的 map-reduce 作业,这些表用作带有手工TableInputFormat
扩展的源。结果是输入格式将源数据与最小的减少相结合,因此作业被转换为单个映射器步骤。所以我建议你也往这个方向看。
您应该尝试级联。它允许您通过多个步骤定义非常复杂的作业。
我猜你需要 oozie 工具。Oozie 帮助使用 xml 文件定义工作流。