我花了一天时间找出为什么我的协调员没有按预期工作,但仍然没有任何线索。
我想让 2 个 spark 作业分别运行,第二个作业取决于第一个作业。_SUCCESS
我已经完成了每小时生成文件的第一份工作。问题是当第二份工作找到它的依赖时,它出错了HOUR
。它总是00
在执行时间而不是小时。
这是第二个作业依赖项的 xml 部分示例
<datasets>
<dataset name="\first_job" frequency="${coord:days(1)}" initial-instance="2015-01-01T00:00Z" timezone="GMT">
<uri-template>hdfs://nameservice1/user/user/project/first_job/success/${YEAR}${MONTH}${DAY}/${HOUR}</uri-template>
<done-flag>_SUCCESS</done-flag>
</dataset>
这是一些日志
::CoordActionInputCheck:: Missing deps:hdfs://nameservice1/user/user/project/first_job/success/20171222/00/_SUCCESS
请告诉我我做错了什么或我错过了什么。
谢谢