1

这是每天/每周安排 Spark 作业的推荐工具。1) Oozie 2) Luigi 3) Azkaban 4) Chronos 5) Airflow

提前致谢。

4

1 回答 1

8

从这里更新我以前的答案:Suggestion for scheduling tool(s) for building based data pipelines

  • 气流:先试试这个。体面的 UI,Python 式的工作定义,非程序员半可访问,依赖声明语法很奇怪。
    • Airflow 内置了对作业计划作业通常需要重新运行和/或回填的事实的支持。确保您构建管道以支持这一点。
  • Azkaban:漂亮的 UI,相对简单,非程序员也可以使用。在 LinkedIn 有着悠久的历史。
  • Luigi:好的 UI,工作流是纯 Python,需要扎实掌握 Python 编码和面向对象的概念,因此不适合非程序员。
  • Oozie:疯狂的基于 XML 的作业定义。这里是龙。;-)
  • 计时:¯\_(ツ)_/¯

哲学:

更简单的管道比复杂的管道更好:更容易创建,更容易理解(尤其是当你没有创建时)并且更容易调试/修复。

当需要复杂的操作时,您希望以完全成功或完全失败的方式封装它们。

如果您可以使其具有幂等性(再次运行它会产生相同的结果),那就更好了。

于 2017-01-27T14:15:37.147 回答