我有一个 Oozie 工作流程,它应该每 X 分钟运行一次。它从 HBase 表中读取一个值。在此之后,基于上一步中从 HBase 读取的值运行 Sqoop 操作(增量)。为了使工作流正常工作,我需要以某种方式从 Sqoop Oozie 操作中捕获新的 --last-value 以将其写回 HBase,并在下次工作流运行时再次读取它......等等。
我该怎么做,或者可能有更好的方法?
乔纳斯
我认为博客http://www.tanzirmusabbir.com/2013/05/chunk-data-import-incremental-import-in.html可能会给你一些提示。
基本上,它将startindex和chunksize保存在job.properties中,startindex用于Sqoop作业中的where条件,然后在sqoop作业后通过shell脚本更改startindex。