我正在尝试使用 Python 的 Airflow 库。我希望它定期抓取网页。
我遇到的问题是,如果我start_date
是几天前,当我启动调度程序时,它将从start_date
今天回填。例如:
假设今天是本月的 20 日。
假设start_date
是本月的 15 日。
如果我在 20 号启动调度程序,它将在 20 号刮掉页面 5 次。它将看到一个 DAG 实例应该在 15 日运行,并将在 20 日运行该 DAG 实例(15 日的实例)。然后它将在 20 日 16 日运行 DAG 实例,以此类推。
简而言之,Airflow 会尝试“赶上”,但这对于网页抓取来说没有意义。
有什么方法可以让 Airflow 在一定时间后认为 DAG 实例失败?