我想从 Nifi 安排我的 spark 批处理作业。我可以看到有ExecuteSparkInteractive处理器将火花作业提交给 Livy,但它执行属性中提供的代码或来自传入流文件的内容。如果批处理作业失败或成功,我应该如何安排我的来自 Nifi 的 spark 批处理作业并采取不同的操作?
问问题
1011 次
1 回答
1
您可以使用ExecuteProcess运行 spark-submit 命令。但是您似乎在寻找的不是 DataFlow 管理工具,而是工作流管理器。工作流管理器的两个很好的例子是:Apache Oozie和Apache Airflow。
如果您仍想使用它来安排 spark 作业,您可以使用GenerateFlowFile处理器进行调度(在主节点上因此不会被调度两次 - 除非您愿意),然后将其连接到 ExecuteProcess 处理器,然后让它运行spark-submit
命令。
对于更复杂的工作流程,我写了一篇关于 :) 的文章希望它会有所帮助。
于 2019-02-18T06:06:52.467 回答