问题标签 [airflow-scheduler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
18417 浏览

jobs - 选择 Apache Oozie 或 Apache Airflow 哪一个?需要比较

我是作业调度程序的新手,正在寻找一个在大数据集群上运行作业的程序。我对可用的选择感到很困惑。发现 Oozie 与 TWS、Autosys 等现有的相比有很多限制。

需要一些关于 Oozie 与 Airflow 的比较点。

感谢你的帮助。

0 投票
2 回答
836 浏览

airflow - 不需要的 DAG 在 Airflow 中运行

我这样配置我的 DAG:

由于某种原因,当我取消暂停 DAG 时,它会立即执行两次。知道为什么吗?有什么规则我可以​​应用来告诉这个 DAG 永远不要同时运行超过一次吗?

0 投票
5 回答
9176 浏览

django - 气流的网络服务器未运行

m 在 Django 的 Airflow 中配置电子邮件调度程序,但它不起作用。

终端错误:

0 投票
1 回答
1144 浏览

airflow - 如何通过气流将参数传递给 hql 运行

我想知道如何将参数传递给通过气流运行的配置单元查询脚本。如果我只想为此脚本添加一个参数,比如 target_db = mydatabase,我该怎么做?我是否需要将它添加到 default_args 然后调用它然后在脚本的 op_kwargs 中调用它?

0 投票
2 回答
3379 浏览

python-3.x - 气流调度程序意外关闭

我正在v1.8.0使用 Ubuntu 的 EC2 实例上运行气流。我运行的各种 DAG 与几个不同的 SQL 表连接。我遇到了一个反复出现的问题,调度程序airflow scheduler -D只是关闭了我。当我检查airflow-scheduler.err没有错误。为了调试,我进入/airflow目录并清除所有与调度程序相关的文件rm airflow-scheduler*并重新启动守护程序。我正在使用LocalExecutor.

两个问题:(1)发生了什么,我该如何解决?(2) 如果没有快速修复,当调度程序失败时,气流是否至少有办法向我发送电子邮件?

0 投票
1 回答
4024 浏览

python-3.x - python 3.6“url超过最大重试次数”

我正在使用登录服务器的请求,我收到以下错误:

[2018-01-12 11:56:43,931] {base_task_runner.py:95} 信息 - 子任务:requests.exceptions.ConnectionError:HTTPConnectionPool(host='XX.XX.XX.XX',port=80):最大重试次数超过 url: /public-api/sign-in (由 NewConnectionError(': 无法建立新连接: [Errno 111] Connection denied',))

我在stackoverflow和谷歌上搜索。我尝试了很多方法:

  1. 设置 keep_alive = False
  2. 设置标题:Coonection = 'close'
  3. 添加重试和睡眠。
  4. 重新启动服务器和客户端。

错误仍然相同。

有人可以帮忙吗?

我正在使用 Python 3.6.3。该脚本用于气流。

代码如下:

0 投票
2 回答
5051 浏览

airflow - 重新运行 Airflow Subdag 的一部分

我有一个包含 subdag 的每日 Dag。subdag 有五个任务,T1 到 T5,必须按顺序运行(例如 T1 >> T2 >> T3 >> T4 >> T5)

dag 成功运行了几天,但后来我发现了 T4 的一个错误。我修复了这个错误,并希望在之前的所有日子里只重新运行 T4 和 T5。重要的是不要重新运行 T1-T3,因为这些步骤比 T4-T5 花费的时间要长得多。

我尝试过的失败:

  1. 选择 T4,清除下游+递归 - 没有任何反应。Dag 树视图将 subdag 显示为“成功”,即使其中的 T4 和 T5 已清除。
  2. 选择 T4,清除下游+递归,选择 subdag,仅清除该任务 - 即使 T1-T3 被标记为成功,这将重新运行整个 subdag (T1-T5)
  3. 选择 T4,清除下游+递归,选择 subdag,单击运行 - 与 #2 相同。重新运行整个 subdag。
  4. 选择T4,清除下游+递归,手动设置subdag为“running”状态。什么都没发生。树视图显示处于“运行”状态的子标签,但实际上没有任务运行。

这似乎只是在尝试重新运行 subdag 的一部分时出现的问题。如果我在常规 dag 中有一堆任务,通常在中间选择一个任务并选择清除下游+递归将从该点重新运行 dag。

任何建议,将不胜感激。

0 投票
2 回答
21339 浏览

airflow - 在气流上部署 dag 文件的有效方法

将新的 dags 部署到气流中是否遵循任何最佳实践?

我在谷歌论坛上看到了一些评论,指出 dag 保存在 GIT 存储库中,并且会定期同步到气流集群中的本地位置。
关于这种方法,我有几个问题

  • 我们是否为不同的环境维护单独的 dag 文件?(测试。生产)
  • 如果新版本有错误,如何处理 ETL 回滚到旧版本?

    非常感谢这里的任何帮助。如果您需要更多详细信息,请告诉我?

  • 0 投票
    0 回答
    870 浏览

    airflow - 气流 - 所有任务都排队而不是执行

    气流 1.8.1

    调度程序、工作程序和网络服务器在 AWS 上的不同 docker 中运行。

    系统可以运行,现在由于某种原因,所有任务都处于排队状态......

    调度程序日志中没有错误。

    在worker中我看到了这个错误(不确定它是否相关,因为调度程序应该将任务从排队状态移动):

    [2018-01-23 20:46:00,428] {base_task_runner.py:95} INFO - 子任务:[2018-01-23 20:46:00,428] {models.py:1122} INFO - 依赖不满足,依赖“任务实例状态”失败:任务处于“成功”状态,这不是执行的有效状态。必须清除任务才能运行。

    我尝试重新启动,气流清除,然后 resetdb 命令,但它没有帮助。

    知道还能做些什么来解决这个问题吗?

    谢谢

    0 投票
    2 回答
    6314 浏览

    kubernetes - Kubernetes 与 Apache Airflow 的集成

    我们正在构建工作流调度应用程序。我们发现 Airflow 是工作流管理器的一个不错的选择,而 Kubernetes 是集群管理器的一个不错的选择。因此,流量将是,

    1. 我们会将工作流 DAG 提交给 Airflow。
    2. Airflow 应该通过指定 docker 镜像将给定 DAG 的任务提交给 Kubernetes。
    3. Kubernetes 应该通过在集群的可用 EC2 工作节点上运行 docker 容器来执行任务。

    在搜索中,我们发现 Airflow 有用于与 ECS、Mesos 集成但不用于 Kubernetes 的 Operator。但是,我们在Airflow wiki上找到了对 Kubernetes Operator 的请求,但没有任何进一步的更新。

    那么,简单的问题是,如何将 Airflow 与 Kubernetes 集成?