我有一个 mapReduce 任务(https://github.com/flopezluis/testing-hadoop),它读取文件夹中的文件并将它们附加到一个 zip 文件中。我需要永远运行这个任务,所以当它完成处理它们时,它应该再次运行。我正在阅读有关 oozie 的信息,但我不确定它是否最合适,因为它可能对我的问题来说太大了。
如果 oozie 是最好的解决方案。如果我写一个协调器每10分钟运行一次,如果任务超过10分钟,协调器等待再次运行任务会发生什么?
任务说明
文件夹始终相同。有不同的 zips 文件,一个用于密钥。这个想法是逐步创建 zip 文件。我认为这比在处理完所有文件后创建 zip 文件要快。这些文件包含如下内容:
<info operationId="key1">
DATA1
</info>
<info operationId="key1">
DATA2
</info>
<info operationId="key2">
DATA3
</info>
所以拉链会是这样的:
key1.zip --> 数据1,数据2
key3.zip --> 数据3
谢谢