2

在一篇关于实现分析大数据的决策树的谷歌论文中,他们提到了一些关于前向调度映射减少作业的内容。

他们说,如果他们目前有 2 个作业要运行,他们会运行第一个作业,然后第二个作业开始设置。他们有一个线程来查看第一个作业何时完成以及何时完成,他们将输入提供给第二个作业并启动它。这为他们节省了大量时间,因为他们提到的算法具有迭代作业。

我想知道如何在hadoop上做到这一点。这是论文的引用。前向调度在第 6.1 段中

行星

4

2 回答 2

2

如果您不想为此使用 Oozie,您可以直接在 Java 代码中执行此操作。

我曾写过如何在 Hadoop 中实现迭代作业:

http://codingwiththomas.blogspot.de/2011/04/controlling-hadoop-job-recursion.html

但请注意,这不是很有效,对于迭代繁重的算法,您最好使用Apache Hama

于 2012-08-14T07:31:24.230 回答
2

Oozie是您正在寻找的。随着技术的发展,它有点不成熟,但我相信它会处理你描述的工作流程功能。您可以构建依赖关系图并触发事件的执行。

于 2012-08-14T03:05:20.617 回答