问题标签 [airflow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
airflow - 气流python客户端
我们有一些应用程序正在运行,我们想开始使用气流。从文档看来,启动 DAG 的唯一方法是通过命令行。这是真的?
例如,我们有一个烧瓶服务器正在运行,我们想要启动一些由气流控制的工作流。我们怎样才能做到这一点?是否有 API 可以触发,例如:“Run DAG now with parameters x,y,h”?
airflow - 可以为每个 Airflow DAG 设置不同的执行者吗?
我希望将另一个 DAG 添加到现有的 Airflow 服务器。服务器当前正在使用 LocalExecutor,但我可能希望我的 DAG 使用 CeleryExecutor。似乎配置文件airflow.cfg
只允许一个执行者:
是否可以配置 Airflow 以使现有 DAG 可以继续使用 LocalExecutor 而我的新 DAG 可以使用 CeleryExecutor 或自定义执行器类?我没有找到任何这样做的人的例子,也没有在 Airflow 文档中遇到任何内容。
celery - 何时将 Airflow 的执行器从 LocalExecutor 升级到 CeleryExecutor?
我目前正在使用 LocalExecutor 运行几个 Airflow DAG,并且运行良好。我的服务器有很多资源。我即将为一个更大的项目添加一个新的 DAG,我正在考虑从 LocalExecutor 切换到 CeleryExecutor。
我的问题是,有哪些迹象表明我应该切换到 CeleryExecutor?是否应该查看特定的性能指标以了解何时需要开始横向扩展?
python - 如何防止气流回填 dag 运行?
假设您有一个气流 DAG,回填没有意义,这意味着,在它运行一次之后,随后快速运行它是完全没有意义的。
例如,如果您从某个仅每小时更新一次的源加载数据到您的数据库中,那么快速连续发生的回填只会一次又一次地导入相同的数据。
当您实例化一个新的每小时任务时,这尤其令人讨厌,并且它在N
您指定的时间间隔开始运行之前,它错过的每一小时都会运行多次,做多余的工作。
我能想到的唯一解决方案是他们在文档常见问题解答中特别建议的东西
我们建议不要使用动态值作为 start_date,尤其是
datetime.now()
因为它可能会很混乱。
有什么方法可以禁用 DAG 的回填,或者我应该执行上述操作吗?
airflow - Airflow does not backfill latest run
For some reason, Airflow doesn't seem to trigger the latest run for a dag with a weekly schedule interval.
Current Date:
DAG:
Run scheduler
You'd expect a total of four DAG Runs as the scheduler should backfill for 7/18, 7/25, 8/1, and 8/8. However, the last run is not scheduled.
EDIT 1:
I understand that Vineet although that doesn’t seem to explain my issue.
In my example above, the DAG’s start date is July 18.
- First DAG Run: July 18
- Second DAG Run: July 25
- Third DAG Run: Aug 1
- Fourth DAG Run: Aug 8 (not run)
Where each DAG Run processes data from the previous week.
Today being Aug 9, I would expect the Fourth DAG Run to have executed with a execution date of Aug 8 which processes data for the last week (Aug 1 until Aug 8) but it doesn’t.
python - 为什么使用 -t 选项运行 `airflow clear` 会引发线程错误?
我已经构建了一个具有默认设置的 Airflow DAG 作为教程。当我运行 DAG 时,一些任务失败了。当我尝试使用 清除失败的任务airflow clear my_dag -s 2016-08-03 -t my_task_name -fd
时,出现以下异常:
这是气流本身的问题,还是我这边的问题?
完整的回溯是:
python-2.7 - 虽然气流 initdb,ImportError: cannot import name HiveOperator
我最近airflow
为我的工作流程安装了。在创建我的项目时,我执行了以下命令:
返回以下错误:
我在网上查了一些类似的问题,建议我安装airflow[hive]
,pyhs2
但它似乎不起作用。
bash - EMR 无法引导 Airflow
我正在创建一个 bash 来提供执行气流的环境,但由于某种原因,该脚本不能正常工作。
如果我先提供 EMR,然后执行脚本,它就可以了。但是,如果我使用脚本在自定义活动中执行不起作用。我试图更改命令以像 sudo 一样执行,但仍然无法正常工作。
这是代码错误。
来自主节点的标准错误。
airflow - Airflow 重启会影响当前正在运行的作业吗?
这似乎是一个平凡的问题,但为了安全起见,重新启动气流服务对当前正在运行的作业有什么影响?