问题标签 [airflow-scheduler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
jobs - 选择 Apache Oozie 或 Apache Airflow 哪一个?需要比较
我是作业调度程序的新手,正在寻找一个在大数据集群上运行作业的程序。我对可用的选择感到很困惑。发现 Oozie 与 TWS、Autosys 等现有的相比有很多限制。
需要一些关于 Oozie 与 Airflow 的比较点。
感谢你的帮助。
airflow - 不需要的 DAG 在 Airflow 中运行
我这样配置我的 DAG:
由于某种原因,当我取消暂停 DAG 时,它会立即执行两次。知道为什么吗?有什么规则我可以应用来告诉这个 DAG 永远不要同时运行超过一次吗?
django - 气流的网络服务器未运行
m 在 Django 的 Airflow 中配置电子邮件调度程序,但它不起作用。
终端错误:
airflow - 如何通过气流将参数传递给 hql 运行
我想知道如何将参数传递给通过气流运行的配置单元查询脚本。如果我只想为此脚本添加一个参数,比如 target_db = mydatabase,我该怎么做?我是否需要将它添加到 default_args 然后调用它然后在脚本的 op_kwargs 中调用它?
python-3.x - 气流调度程序意外关闭
我正在v1.8.0
使用 Ubuntu 的 EC2 实例上运行气流。我运行的各种 DAG 与几个不同的 SQL 表连接。我遇到了一个反复出现的问题,调度程序airflow scheduler -D
只是关闭了我。当我检查airflow-scheduler.err
没有错误。为了调试,我进入/airflow
目录并清除所有与调度程序相关的文件rm airflow-scheduler*
并重新启动守护程序。我正在使用LocalExecutor
.
两个问题:(1)发生了什么,我该如何解决?(2) 如果没有快速修复,当调度程序失败时,气流是否至少有办法向我发送电子邮件?
python-3.x - python 3.6“url超过最大重试次数”
我正在使用登录服务器的请求,我收到以下错误:
[2018-01-12 11:56:43,931] {base_task_runner.py:95} 信息 - 子任务:requests.exceptions.ConnectionError:HTTPConnectionPool(host='XX.XX.XX.XX',port=80):最大重试次数超过 url: /public-api/sign-in (由 NewConnectionError(': 无法建立新连接: [Errno 111] Connection denied',))
我在stackoverflow和谷歌上搜索。我尝试了很多方法:
- 设置 keep_alive = False
- 设置标题:Coonection = 'close'
- 添加重试和睡眠。
- 重新启动服务器和客户端。
错误仍然相同。
有人可以帮忙吗?
我正在使用 Python 3.6.3。该脚本用于气流。
代码如下:
airflow - 重新运行 Airflow Subdag 的一部分
我有一个包含 subdag 的每日 Dag。subdag 有五个任务,T1 到 T5,必须按顺序运行(例如 T1 >> T2 >> T3 >> T4 >> T5)
dag 成功运行了几天,但后来我发现了 T4 的一个错误。我修复了这个错误,并希望在之前的所有日子里只重新运行 T4 和 T5。重要的是不要重新运行 T1-T3,因为这些步骤比 T4-T5 花费的时间要长得多。
我尝试过的失败:
- 选择 T4,清除下游+递归 - 没有任何反应。Dag 树视图将 subdag 显示为“成功”,即使其中的 T4 和 T5 已清除。
- 选择 T4,清除下游+递归,选择 subdag,仅清除该任务 - 即使 T1-T3 被标记为成功,这将重新运行整个 subdag (T1-T5)
- 选择 T4,清除下游+递归,选择 subdag,单击运行 - 与 #2 相同。重新运行整个 subdag。
- 选择T4,清除下游+递归,手动设置subdag为“running”状态。什么都没发生。树视图显示处于“运行”状态的子标签,但实际上没有任务运行。
这似乎只是在尝试重新运行 subdag 的一部分时出现的问题。如果我在常规 dag 中有一堆任务,通常在中间选择一个任务并选择清除下游+递归将从该点重新运行 dag。
任何建议,将不胜感激。
airflow - 在气流上部署 dag 文件的有效方法
将新的 dags 部署到气流中是否遵循任何最佳实践?
我在谷歌论坛上看到了一些评论,指出 dag 保存在 GIT 存储库中,并且会定期同步到气流集群中的本地位置。
关于这种方法,我有几个问题
非常感谢这里的任何帮助。如果您需要更多详细信息,请告诉我?
airflow - 气流 - 所有任务都排队而不是执行
气流 1.8.1
调度程序、工作程序和网络服务器在 AWS 上的不同 docker 中运行。
系统可以运行,现在由于某种原因,所有任务都处于排队状态......
调度程序日志中没有错误。
在worker中我看到了这个错误(不确定它是否相关,因为调度程序应该将任务从排队状态移动):
[2018-01-23 20:46:00,428] {base_task_runner.py:95} INFO - 子任务:[2018-01-23 20:46:00,428] {models.py:1122} INFO - 依赖不满足,依赖“任务实例状态”失败:任务处于“成功”状态,这不是执行的有效状态。必须清除任务才能运行。
我尝试重新启动,气流清除,然后 resetdb 命令,但它没有帮助。
知道还能做些什么来解决这个问题吗?
谢谢
kubernetes - Kubernetes 与 Apache Airflow 的集成
我们正在构建工作流调度应用程序。我们发现 Airflow 是工作流管理器的一个不错的选择,而 Kubernetes 是集群管理器的一个不错的选择。因此,流量将是,
- 我们会将工作流 DAG 提交给 Airflow。
- Airflow 应该通过指定 docker 镜像将给定 DAG 的任务提交给 Kubernetes。
- Kubernetes 应该通过在集群的可用 EC2 工作节点上运行 docker 容器来执行任务。
在搜索中,我们发现 Airflow 有用于与 ECS、Mesos 集成但不用于 Kubernetes 的 Operator。但是,我们在Airflow wiki上找到了对 Kubernetes Operator 的请求,但没有任何进一步的更新。
那么,简单的问题是,如何将 Airflow 与 Kubernetes 集成?