0

我正在尝试使用 Oozie 运行现有的 Hadoop 作业(我正在从 AWS 迁移)。

在 AWS Mapreduce 中,我以编程方式提交作业,因此在提交作业之前,我的代码以编程方式查找输入。

我的输入恰好是另一项工作的最后一次成功运行。要查找最后一次成功运行,我需要扫描 HDFS 文件夹,按文件夹命名约定中嵌入的时间戳排序,然后找到其中包含 _SUCCESS 文件的最新文件夹。

如何做到这一点超出了我的 oozie-newbie 理解。

有人可以简单地为我描述一下我需要在 Oozie 中配置什么,以便我知道我在这里试图达到的目标吗?

4

1 回答 1

0

查看 oozie 的以下配置:https ://github.com/cloudera/cdh-twitter-example/blob/master/oozie-workflows/coord-app.xml

有一个名为“done-flag”的标签,您可以在其中放置 _SUCCESS 文件以触发工作流程或针对您的情况进行地图缩减作业。还有用于调度作业的参数

${coord:current(1 + (coord:tzOffset() / 60))} ....

于 2013-10-09T16:47:41.707 回答