我已将气流设置为在具有 10 个工作节点的分布式模式下运行。我试图通过触发一个仅包含 1 个任务的测试 dag 来访问并行工作负载的性能,该任务仅休眠 3 秒然后出来。
我使用命令气流回填 test_dag -s 2015-06-20 -e 2015-07-10 触发了 dag
调度程序并行启动作业/dag,我经常看到以下 o/p:[2017-06-27 09:52:29,611] {models.py:4024} INFO - 更新状态以考虑 1 个任务[2017-06-27 09:52:29,647] {models.py:4024} INFO - 更新状态以考虑 1 个任务 [2017-06-27 09:52:29,664] {jobs.py:1983} INFO - [回填进度] | 已完成第 19 次(共 21 次)| 任务等待:0 | 成功:19 | 开球:2 | 失败:0 | 跳过:0 | 死锁:0 | 未准备好:0
此处 kicked_off:2 表示启动了 2 个任务,但是当我看到 dag 运行状态的 UI 时,我看到 2 个 dag 实例正在运行。当我查看相应的任务实例日志时,它表明任务已成功完成,但上述消息仍无限显示在命令提示符中
[2017-06-27 09:52:29,611] {models.py:4024} INFO - 更新状态以考虑 1 个任务 [2017-06-27 09:52:29,647] {models.py:4024} INFO - 更新状态以考虑 1 个任务 [2017-06-27 09:52:29,664] {jobs.py:1983} 信息 - [回填进度] | 已完成第 19 次(共 21 次)| 任务等待:0 | 成功:19 | 开球:2 | 失败:0 | 跳过:0 | 死锁:0 | 未准备好:0
是不是工人正在发送的消息被丢弃,因此状态没有得到更新?
airflow.cfg 文件中是否有任何参数允许在其他工作节点上重试此类失败的作业,而不是无限等待负责执行 aobe 失败任务的工作节点的消息。