我正在使用 LocalExecutor 在 4 CPU 机器上运行 Airflow
我已经将上游任务定义为一次成功
create_spark_cluster_task = BashOperator(
task_id='create_spark_cluster',
trigger_rule='one_success',
bash_command= ...,
dag=dag)
...
download_bag_data_task >> create_spark_cluster_task
download_google_places_data_task >> create_spark_cluster_task
download_facebook_places_details_data_task >> create_spark_cluster_task
download_facebook_places_details_data_task_2 >> create_spark_cluster_task
download_facebook_places_details_data_task_3 >> create_spark_cluster_task
download_factual_data_task >> create_spark_cluster_task
download_dataoutlet_data_task >> create_spark_cluster_task
但即使有些被明确标记为成功,任务也不会触发
“下载任务”确实并行运行,所以这不是问题
检查任务显示:
依赖性:未知
原因:满足所有依赖关系但任务实例未运行。在大多数情况下,这只是意味着任务可能很快就会被安排,除非: - 调度程序已关闭或负载过重 - 此任务实例已经运行并且手动更改了它的状态(例如在 UI 中清除)
我查看了负载,它确实很高:
平均负载:2.45、3.55、3.71 CPU 在 50-60%
但是其他的任务都已经完成了,应该有空闲的资源可以开始下一个任务吧?