“airflow-scheduler”的相关标签问题

0 投票

3 回答

12933 浏览

airflow - 气流：日志文件不是本地的，不受支持的远程日志位置

我无法从 Airflow UI 看到附加到任务的日志：

airflow.cfg 文件中的日志相关设置为：

remote_base_log_folder =
base_log_folder = /home/my_projects/ksaprice_project/airflow/logs
worker_log_server_port = 8793
child_process_log_directory = /home/my_projects/ksaprice_project/airflow/logs/scheduler

虽然我正在设置 remote_base_log_folter 它试图从中获取日志http://:8793/log/tutorial/print_date/2017-08-02T00:00:00- 我不明白这种行为。根据设置，工作人员应该将日志存储在，/home/my_projects/ksaprice_project/airflow/logs并且应该从同一位置而不是远程获取日志。

更新 task_instance 表内容：

0 投票

1 回答

614 浏览

airflow - 部署如何与 Airflow 配合使用？

我正在使用 Celery Executor 和来自这个dockerfile的设置。

我正在将我的 dag 部署/usr/local/airflow/dags到调度程序容器的目录中。

我可以使用以下命令运行我的 dag：

我的 dag 包含一个简单的 bash 运算符：

操作员运行test.sh脚本。

但是，如果test.sh引用其他文件，例如callme.sh，那么我会收到“找不到文件”错误。

运行 myworkflow 时，调用 test.sh 的任务被调用，但因找不到 callme.sh 而失败。

我觉得这很混乱。与工人共享代码资源文件是我的责任还是气流的责任？如果是我的，那么推荐的方法是什么？我正在考虑使用 EFS 并将其安装在所有容器上，但对我来说它看起来非常昂贵。

airflow apache-airflow airflow-scheduler

0 投票

2 回答

8945 浏览

python - Airflow：如何从 PostgreOperator 推送 xcom 价值？

我正在使用 Airflow 1.8.1，我想从 PostgreOperator 推送 sql 请求的结果。

这是我的任务：

这是我的 sql 脚本：

当我从中检查 xcom 值时，check_task它会检索none值。

python airflow apache-airflow airflow-scheduler

0 投票

5 回答

41022 浏览

airflow - 气流任务卡在“排队”状态并且永远不会运行

我正在使用 Airflow v1.8.1 并在 kubernetes 和 Docker 上运行所有组件（worker、web、flower、scheduler）。我将 Celery Executor 与 Redis 一起使用，我的任务如下所示：

所以start任务有多个下游。我设置并发相关配置如下：

然后当我手动运行这个 DAG 时（不确定它是否永远不会发生在计划任务上），一些下游被执行，但另一些则停留在“排队”状态。

如果我从管理 UI 中清除任务，它就会被执行。没有工作日志（在处理了一些第一个下游之后，它只是不输出任何日志）。

Web 服务器的日志（不确定worker exiting是否相关）

调度程序也没有错误日志。每当我尝试此操作时，许多卡住的任务都会发生变化。

因为我也使用 Docker，所以我想知道这是否相关： https ://github.com/puckel/docker-airflow/issues/94 但到目前为止，还没有任何线索。

有没有人遇到过类似的问题或知道我可以针对这个问题调查什么......？

airflow apache-airflow airflow-scheduler

0 投票

1 回答

753 浏览

python - 如何使用 Airflow 高效管理单台机器上的资源

我在 2015 年初配备 3.1 GHz Intel Core i7 处理器和 16GB 或 RAM 的 MacBook Pro 上运行具有 +400 个任务的 Airflow 进程。

我正在运行的脚本看起来很像这样，不同之处在于我将 DAG 定义为

尽量避免并行触发太多任务。以下是我做这件事的一系列截图。我的问题是：

此操作会生成大量 python 进程。是否有必要以这种方式在 RAM 中定义整个任务队列，或者气流可以采取“随手生成任务”的方法来避免启动这么多进程。
我认为max_active_runs控制在任何给定时间实际有多少进程正在工作。不过，回顾我的任务，我将有几十个任务占用 CPU 资源，而其余任务则处于空闲状态。这真是低效，我该如何控制这种行为？