3

我试图弄清楚是否可以使用 Airflow 来表达需要根据父任务的输出启动同一任务的多个实例的工作流。Airflow 支持多个工作人员,因此我天真地期望 Airflow 可用于编排涉及批处理的工作流。到目前为止,我还没有找到任何适合这个模型的食谱/方向。将 Airflow 用于如下所示的浴液处理工作流程的正确方法是什么?假设有一个 Airflow 工作人员池。

工作流示例: 1. 启动任务 A 以生成多个文件 2. 为每个文件启动任务 B 的一个实例(可能是另一个工作流) 3. 等待任务 B 的所有实例,然后启动任务 C

4

1 回答 1

1

作为在 Airflow 中并行处理输入数据的一种技巧,我使用了一个自定义运算符,将输入拆分为预定数量的分区。下游操作符为每个分区复制,如果需要,可以再次合并结果。对于本地文件,操作员运行split命令。在 Kubernetes 中,这可以很好地与集群自动缩放配合使用。

于 2019-04-02T16:52:03.303 回答