问题标签 [airflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
10579 浏览

python - 由于 gunicorn,气流启动失败

我发现这个错误是由于没有可用的 gunicorn 引起的,所以我在 os.py 中打印所有路径:

而 gunicorn 存在于这条路上

我的环境有问题吗?

0 投票
8 回答
49343 浏览

python-3.x - 使用 UI 的 Airflow s3 连接

我一直在尝试使用 Airflow 来安排 DAG。其中一个 DAG 包括从 s3 存储桶加载数据的任务。

出于上述目的,我需要设置 s3 连接。但是气流提供的用户界面并不是那么直观(http://pythonhosted.org/airflow/configuration.html?highlight=connection#connections)。如果是这样的话,任何人都成功地建立了 s3 连接,你们有没有遵循的最佳实践?

谢谢。

0 投票
1 回答
7841 浏览

python - 在两个 DAG 之间设置上游

我有两个 python 文件(proc1.py 和 proc2.py)调用一些 BaseOperator 来做一些处理。工作流程是这样的(为便于阅读而简化):

proc2.py 的操作应该在 proc1 完成后开始。结果,我尝试创建一个新的 DAG (run_all.py),并在其中进行了尝试:

首先,我不能 100% 确定我可以像在 run_all.py 中那样使用 set_upstream,但是,我不知道还有其他方式可以提到 proc2 应该在 proc1 之后启动。

现在,当我使用它时,我得到以下异常:airflow.exceptions.AirflowException:试图在还没有 DAG 的任务之间创建关系。为至少一项任务设置 DAG,然后重试

任何帮助将不胜感激。 注意: proc1 和 proc2 独立工作,并且(如果可能)不应对它们进行任何更改。

0 投票
0 回答
1028 浏览

apache-spark - 如何在 Airflow 集群上使用 spark 提交配置 Graphite 和 Grafana?

我最近配置Airflow为执行我的任务。我有主节点和 2 个工作人员来执行我的任务。我想用Graphite和监视我的集群Grafana。我所做的只是在主节点上安装GraphiteGrafana使用简单的 bash 命令对其进行测试。现在我想Airflow在执行任务时监控我的集群。我创建 metrics.properties并将其放置在spark/conf

我添加了以下标志到我的spark-submit

打开后我能找到Graphite uiGraphite->carbon->agents->cluster1-a只有一些图表。我确定它正在监视其他东西,而不是我的Airflow集群。
也许我需要安装grafana-spark-dashboards?但这就是全部YARN,我正在使用Airflow管理系统。或者在's
中添加一个块? 此块将显示在仪表板中:Carbonstorage-schemas.conf
Graphite

我可以以某种方式检查哪些指标Spark发送到Graphite

0 投票
2 回答
1247 浏览

postgresql - 近实时 ETL 架构的正确工具

我们有一个系统,其中我们的主要数据存储(和“通用数据源”)是 Postgres,但我们实时以及每晚汇总复制该数据。我们目前复制到 Elasticsearch、Redis、Redshift(仅限每晚),并且还在添加 Neo4j。

我们的 ETL 管道已经变得足够广泛,以至于我们开始研究AirflowLuigi等工具,但从我最初的研究中可以看出,这些工具几乎完全用于批量加载。

是否有任何工具可以处理既可以处理大批量 ETL 过程也可以处理动态、大容量、单个记录复制的 ETL 过程?Airflow 或 Luigi 会处理这个问题,而我只是错过了它吗?

谢谢!

0 投票
1 回答
1076 浏览

python - 气流“此连接已关闭”在运行但不在测试中

我正在使用气流 1.7.1.3 和 python 2.7

当我使用单独运行每个任务时,我创建了一个完美运行的 DAG

气流测试 [myDAG] [myTask] 2016-10-14

然而,

气流 trigger_dag [myDAG]

或者

气流运行 [myDAG] [myTask] 2016-10-14

两者都会引发“此连接已关闭”SQLalchemy 错误。

这是通过 SQLalchemy 与 Oracle 12 数据库的连接,当我在脚本中使用 session.commit() 时会引发此错误。

有人知道什么可以解释这种差异和错误吗?

0 投票
1 回答
2185 浏览

airflow - 气流网络服务器仅在调试模式下启动

气流网络服务器仅在调试模式下启动

airflow webserver -p 8051 -d有效

我也看不到airflow-webserver.pid文件$AIRFLOW_HOME

但是在调试模式下我无法运行airflow worker

0 投票
3 回答
23439 浏览

python-3.x - 将日志添加到 Airflow 日志

如何将我自己的日志添加到自动生成的 Apache Airflow 日志中?任何打印语句都不会在那里登录,所以我想知道如何添加我的日志以便它也显示在 UI 上?

0 投票
3 回答
42219 浏览

airflow - 写入气流日志

在 Airflow 中写入日志的一种方法是从 PythonOperator 返回一个字符串,如第 44 行此处

还有其他方法可以让我写入气流日志文件吗?我发现打印语句没有保存到日志中。

0 投票
1 回答
413 浏览

python-3.x - 气流未正确调度

我已将我的任务设置为每天运行,但程序却晚了一天运行,我想知道是否有答案?

我在 PST,所以即使调度程序使用 UTC,它也不应该影响它关闭 2 天的原因,因为 UTC 更快。和一天。例如,截至太平洋标准时间 10 月 18 日下午 6:00,计划任务的最后一次运行是 10 月 17 日,而不是 10 月 18 日。