我正在尝试使用 Oozie 运行现有的 Hadoop 作业(我正在从 AWS 迁移)。
在 AWS Mapreduce 中,我以编程方式提交作业,因此在提交作业之前,我的代码以编程方式查找输入。
我的输入恰好是另一项工作的最后一次成功运行。要查找最后一次成功运行,我需要扫描 HDFS 文件夹,按文件夹命名约定中嵌入的时间戳排序,然后找到其中包含 _SUCCESS 文件的最新文件夹。
如何做到这一点超出了我的 oozie-newbie 理解。
有人可以简单地为我描述一下我需要在 Oozie 中配置什么,以便我知道我在这里试图达到的目标吗?