问题标签 [airflow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 由于 gunicorn,气流启动失败
我发现这个错误是由于没有可用的 gunicorn 引起的,所以我在 os.py 中打印所有路径:
而 gunicorn 存在于这条路上
我的环境有问题吗?
python-3.x - 使用 UI 的 Airflow s3 连接
我一直在尝试使用 Airflow 来安排 DAG。其中一个 DAG 包括从 s3 存储桶加载数据的任务。
出于上述目的,我需要设置 s3 连接。但是气流提供的用户界面并不是那么直观(http://pythonhosted.org/airflow/configuration.html?highlight=connection#connections)。如果是这样的话,任何人都成功地建立了 s3 连接,你们有没有遵循的最佳实践?
谢谢。
python - 在两个 DAG 之间设置上游
我有两个 python 文件(proc1.py 和 proc2.py)调用一些 BaseOperator 来做一些处理。工作流程是这样的(为便于阅读而简化):
proc2.py 的操作应该在 proc1 完成后开始。结果,我尝试创建一个新的 DAG (run_all.py),并在其中进行了尝试:
首先,我不能 100% 确定我可以像在 run_all.py 中那样使用 set_upstream,但是,我不知道还有其他方式可以提到 proc2 应该在 proc1 之后启动。
现在,当我使用它时,我得到以下异常:airflow.exceptions.AirflowException:试图在还没有 DAG 的任务之间创建关系。为至少一项任务设置 DAG,然后重试
任何帮助将不胜感激。 注意: proc1 和 proc2 独立工作,并且(如果可能)不应对它们进行任何更改。
apache-spark - 如何在 Airflow 集群上使用 spark 提交配置 Graphite 和 Grafana?
我最近配置Airflow
为执行我的任务。我有主节点和 2 个工作人员来执行我的任务。我想用Graphite
和监视我的集群Grafana
。我所做的只是在主节点上安装Graphite
并Grafana
使用简单的 bash 命令对其进行测试。现在我想Airflow
在执行任务时监控我的集群。我创建 metrics.properties
并将其放置在spark/conf
:
我添加了以下标志到我的spark-submit
:
打开后我能找到Graphite ui
的Graphite->carbon->agents->cluster1-a
只有一些图表。我确定它正在监视其他东西,而不是我的Airflow
集群。
也许我需要安装grafana-spark-dashboards
?但这就是全部YARN
,我正在使用Airflow
管理系统。或者在's
中添加一个块?
此块将显示在仪表板中:Carbon
storage-schemas.conf
Graphite
我可以以某种方式检查哪些指标Spark
发送到Graphite
?
python - 气流“此连接已关闭”在运行但不在测试中
我正在使用气流 1.7.1.3 和 python 2.7
当我使用单独运行每个任务时,我创建了一个完美运行的 DAG
气流测试 [myDAG] [myTask] 2016-10-14
然而,
气流 trigger_dag [myDAG]
或者
气流运行 [myDAG] [myTask] 2016-10-14
两者都会引发“此连接已关闭”SQLalchemy 错误。
这是通过 SQLalchemy 与 Oracle 12 数据库的连接,当我在脚本中使用 session.commit() 时会引发此错误。
有人知道什么可以解释这种差异和错误吗?
airflow - 气流网络服务器仅在调试模式下启动
气流网络服务器仅在调试模式下启动
但airflow webserver -p 8051 -d
有效
我也看不到airflow-webserver.pid
文件$AIRFLOW_HOME
但是在调试模式下我无法运行airflow worker
python-3.x - 将日志添加到 Airflow 日志
如何将我自己的日志添加到自动生成的 Apache Airflow 日志中?任何打印语句都不会在那里登录,所以我想知道如何添加我的日志以便它也显示在 UI 上?
airflow - 写入气流日志
在 Airflow 中写入日志的一种方法是从 PythonOperator 返回一个字符串,如第 44 行此处。
还有其他方法可以让我写入气流日志文件吗?我发现打印语句没有保存到日志中。
python-3.x - 气流未正确调度
我已将我的任务设置为每天运行,但程序却晚了一天运行,我想知道是否有答案?
我在 PST,所以即使调度程序使用 UTC,它也不应该影响它关闭 2 天的原因,因为 UTC 更快。和一天。例如,截至太平洋标准时间 10 月 18 日下午 6:00,计划任务的最后一次运行是 10 月 17 日,而不是 10 月 18 日。