hadoop - Oozie/Hadoop：当输入数据集比静态文件更复杂时，如何定义它？

Question

我正在尝试使用 Oozie 运行现有的 Hadoop 作业（我正在从 AWS 迁移）。

在 AWS Mapreduce 中，我以编程方式提交作业，因此在提交作业之前，我的代码以编程方式查找输入。

我的输入恰好是另一项工作的最后一次成功运行。要查找最后一次成功运行，我需要扫描 HDFS 文件夹，按文件夹命名约定中嵌入的时间戳排序，然后找到其中包含 _SUCCESS 文件的最新文件夹。

如何做到这一点超出了我的 oozie-newbie 理解。

有人可以简单地为我描述一下我需要在 Oozie 中配置什么，以便我知道我在这里试图达到的目标吗？

score 0 · Accepted Answer

有一个名为“done-flag”的标签，您可以在其中放置 _SUCCESS 文件以触发工作流程或针对您的情况进行地图缩减作业。还有用于调度作业的参数

${coord:current(1 + (coord:tzOffset() / 60))} ....

1 回答 1