我在 Airflow 2.2.1 中有一个 DAG,按 5 分钟的时间表运行。我的气流在 Kubernetes 集群中运行。它表现得很好,但有时它似乎跳过了执行......例如,我注意到他从 UTC 下午 12:05 跳过了一个。这些是 UI 中两次连续执行的打印结果:
他只是跳过了 12:05 的比赛。我去检查调度程序 pod 日志,看看是否发生了任何奇怪的事情:
他似乎只是忽略了它......我已经看到它发生在其他场合,今天早些时候它从 UTC 上午 08:50 开始执行运行,而下一个仅在 UTC 时间 09:05 执行。这是我的 DAG 配置:
dag_conf = Variable.get('aat_main_conf')
dag_conf = dag_conf.replace("'", "\"")
dag_conf = json.loads(dag_conf)
default_args = {
'owner': 'AAT',
'depends_on_past': False,
'start_date': days_ago(3),
'retries': dag_conf['retries'],
'retry_delay': timedelta(minutes=dag_conf['retry_delay_minutes']),
}
# DAG definition
dag = DAG(
dag_id="aat_spark_ml_de_job",
default_args=default_args,
schedule_interval=dag_conf['schedule_interval'],
catchup=False
)
aat_main_conf 定义为:
我不知道为什么会发生这种情况......希望你能提供帮助