问题标签 [airflow-scheduler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.6 - 如何运行一项气流任务及其所有依赖项?
我怀疑
airflow run dag_id task_id execution_date
将运行所有上游任务,但它不会。当它看到并非所有相关任务都运行时,它只会失败。如何运行特定任务及其所有依赖项?我猜这是不可能的,因为气流设计决定,但有没有办法解决这个问题?
airflow - apache气流调度程序无法正常工作
我创建了一些DAG
s,并尝试将其放在调度程序上。我想在 24 小时后运行 DAG 中的所有任务。我试图做这样的事情。
我试图设置不同的间隔,但没有任何工作。但是,如果我尝试重置 dbairflow resetdb -y
然后运行airflow initdb
,它会工作一次。然后在那之后,调度程序无法运行它。
气流版本:v1.8.0
PS。airflow scheduler
通过执行root
谁能指出我做错了什么?
airflow - 气流:网络服务器未找到新的 DAG
在 Airflow 中,我应该如何处理错误“此 DAG 在网络服务器 DagBag 对象中不可用。它显示在此列表中是因为调度程序在元数据数据库中将其标记为活动”?
我已将新的 DAG 复制到 Airflow 服务器,并尝试过:
- 取消暂停并刷新(基本操作过程,在上一个答案https://stackoverflow.com/a/42291683/160406中给出)
- 重新启动网络服务器
- 重新启动调度程序
- 停止网络服务器和调度程序,重置数据库(
airflow resetdb
),然后再次启动网络服务器和调度程序 - 正在运行
airflow backfill
(此处建议Airflow "This DAG isnt available in the webserver DagBag object") - 跑步
airflow trigger_dag
调度程序日志显示它正在处理并且没有发生错误,我可以与它交互并通过 CLI 查看它的状态,但它仍然没有出现在 Web UI 中。
编辑:网络服务器和调度程序运行在具有相同气流.cfg 的同一台机器上。它们不在 Docker 中运行。
它们由Supervisor运行,它们作为同一个用户(气流)运行。气流用户对所有 dag 文件具有读取、写入和执行权限。
airflow - 如何确保只重试一个bashoperator而不重试其他气流
我有如下的 dag 文件。在这里我没有重试。但是,我想确保特定文件(bash1、bash2)应该重试 1。但不是其他文件。
以下是默认参数。
我将 dag 定义如下: dag = DAG('x', default_args=default_args, schedule_interval = "15 0,1,2,3,13,14,15,16,17,18,19,20,21,22, 23 * * *")
我的第一个运算符定义如下:
我的第二个运算符定义如下:
我的最终运算符定义如下:
Test_join 取决于 bash1 和 bash 2。
我应该怎么做才能确保 bash1 和 bash2 退休 2 但不是 Test_join。
airflow - 如何将 ds 变量传递给 dag 中的函数?
我想传递执行日期,它在变量 {{ ds }} 中。但是,我通过一个函数传递了它,它没有得到执行日期。
你知道我如何在上面的上下文中使用变量吗?
airflow - Airflow 如何连接到 Spark,是否可以在 Airflow 中为用户设置不同的访问权限?
嗨,我还是 Airflow 的新手。我想知道 Airflow 如何连接到 Spark?我有一台具有不同帐户(或配置文件)的服务器来访问 Spark 集群。我想知道气流是否有固定的轮廓来连接火花?或者它遵循用户配置文件?
另外,是否可以在 Airflow 中为用户设置不同的访问权限?例如,在 Spark(或 hdfs)中有权访问位置 A 的用户 A 只能运行与位置 A 相关的任务。(因此无法从位置 B 运行任何作业)
提前致谢。
airflow - How to set a SLA in Airflow?
I would like to set an SLA in a Sensor Operator. The documentation is not too clear about the use of it. So I did a test using the S3KeySensor
operator which is looking for a file that does not exist. I set the SLA to 30 seconds, I was hoping to see the record after 30 seconds in the UI - in SLA misses - but it did not happen. What am I doing wrong?
airflow - 每月日期和时间的气流 DAG 调度
我们一直在将我们的 cron 作业转换为 Airflow DAG,我很难弄清楚 DAG 的调度在 Airflow 中是如何工作的。一些 DAG 需要在一天中的特定时间(即早上 7 点)运行,而其他 DAG 需要在每月的特定日期/时间(即每月 15 日早上 6 点)运行。
一般来说,Airflow 似乎每天都在正确运行 DAG。因此,schedule_interval = '0 7 * * *
每天'start_date': datetime(2017,4,7)
早上 7 点运行。
但是,对于每月 DAG (schedule_interval = '0 6 15 * *'
和'start_date': datetime(2017,4,7)
),它在 4 月 15 日早上 6 点运行,但从那时起就没有运行过。我尝试每月安排的其他 DAG 在第一个月后同样无法运行。
Airflow关于调度的文档是,IMO,浑浊,对其他SO问题的回答让我更加困惑。我希望有人能澄清我的理解和我试图每月安排的 DAG 出了什么问题。
airflow - 气流不满足任务依赖性
我有一个由两个任务组成的简单气流工作流程。确实会下载包含股票数据的 csv 文件。另一个提取最高股票价格并将数据写入另一个文件。
如果我运行第一个任务然后第二个一切正常,而不是如果执行:airflow runstocks_d get_max_share 它无法满足依赖关系。
任何想法为什么会发生这种情况?
airflow - 气流 - 是否可以使用 backfill 命令一次(按顺序)运行一天?
基本上,我想运行 backfill 命令整整一个月。但是有一些任务依赖于前一天的数据。据我所知,这个命令每天都在同一时间运行。
有没有办法让回填命令一次运行一天(按顺序)?
干杯。