我们正在使用 Google Dataflow 进行批处理数据处理,并为工作流编排工具寻找一些选项,类似于 Azkaban 为 Hadoop 所做的。
我们正在寻找的关键是,
- 配置工作流程
- 调度工作流
- 监控和提醒失败的工作流程
- 能够重新运行失败的作业
我们已经评估了 Pentaho,但这些功能在其企业版中可用,价格昂贵。我们目前正在评估 Azkaban,因为它支持 javaprocess 作业类型。但 Azkaban 主要是为 Hadoop 作业创建的,因此它与 Hadoop 基础设施的集成比普通的 javaprocesses 更深入。
感谢一些关于开源或非常低成本解决方案的建议。