24

我是作业调度程序的新手,正在寻找一个在大数据集群上运行作业的程序。我对可用的选择感到很困惑。发现 Oozie 与 TWS、Autosys 等现有的相比有很多限制。

需要一些关于 Oozie 与 Airflow 的比较点。

感谢你的帮助。

4

1 回答 1

36

根据我的经验,Airflow 是目前最好的数据管道。它最适合管理复杂、长期运行的工作流程。UI 和模块化是最重要的。

空气流动

  • + DAG 的 Python 代码
  • + 为每个主要服务/云提供商提供连接器
  • + 更多功能
  • + 高级指标
  • + 更好的用户界面和 API
  • + 能够创建极其复杂的工作流程
  • + Jinja 模板
  • + 可用作 Tensorflow 扩展生态系统的 Orchestrator
  • = 可以并行化
  • = 与 HDFS、HIVE、PIG 等的本机连接。
  • = 图形为 DAG

奥齐

  • --- 用于 DAG 的 Java 或 XML
  • - 难以构建复杂的管道
  • - 较小、较不活跃的社区
  • - 更糟糕的 WEB GUI
  • - Java API
  • = 可以并行化
  • = 与 HDFS、HIVE、PIG 等的本机连接。
  • = 图形为 DAG

如您所见,Airflow 比 Oozie 更易于使用(尤其是在大型异类团队中)、更通用和更强大的选项。

正如我所说:使用气流。

您可能会觉得有趣的文章

于 2017-12-21T17:12:19.500 回答