4

我们正在使用 Google Dataflow 进行批处理数据处理,并为工作流编排工具寻找一些选项,类似于 Azkaban 为 Hadoop 所做的。

我们正在寻找的关键是,

  • 配置工作流程
  • 调度工作流
  • 监控和提醒失败的工作流程
  • 能够重新运行失败的作业

我们已经评估了 Pentaho,但这些功能在其企业版中可用,价格昂贵。我们目前正在评估 Azkaban,因为它支持 javaprocess 作业类型。但 Azkaban 主要是为 Hadoop 作业创建的,因此它与 Hadoop 基础设施的集成比普通的 javaprocesses 更深入。

感谢一些关于开源或非常低成本解决方案的建议。

4

2 回答 2

1

听起来 Apache Airflow ( https://github.com/apache/incubator-airflow ) 应该可以满足您的需求,并且它现在有一个 Dataflow 运算符 ( https://github.com/apache/incubator-airflow/blob/master/气流/contrib/operators/dataflow_operator.py)。

于 2016-08-18T05:11:03.450 回答
0

要编排 Google 数据流,我们可以使用Cloud composer ,它是基于Apache Airflow构建的托管工作流编排服务。它提供了更大的灵活性,使用它我们可以编排大多数跨本地和公共云的谷歌服务和工作流。

于 2018-08-03T04:48:46.997 回答