2

在 AKS 中运行时,我有一个关于气流的问题。

我们已在 AKS 中部署了气流,并将 Azure Fileshare 安装到气流 pod。我们已将此文件共享用于 DAG 文件夹。但是,从气流到 FileShare 的交易量很大(每 5 分钟至少 20K),这给我们带来了 Azure 的大量成本。仅供参考 - Azure 文件共享的计费是根据事务数量而不是我们使用的大小来完成的。

如果在 Fileshare 中有 DAG 文件夹有问题,您能否告诉我?如果是这样,是否有任何其他方法可以使用。已尝试将托管磁盘(而不是文件共享)挂载到 pod。但是托管磁盘的问题是我们不能将磁盘安装到超过 1 个 pod。

感谢您的帮助/想法。

谢谢

4

1 回答 1

0

我遇到了类似的问题,每 5 分钟就有 8k 个事务,只有 3 个 DAG。我通过设置file_parsing_sort_mode为每 5 分钟将其降低到大约 800 笔交易alphabetical

https://airflow.apache.org/docs/apache-airflow/stable/configurations-ref.html#file-parsing-sort-mode

默认设置是modified_time让 DAG 处理器在每个循环中从文件共享中检索文件的最后修改时间。奇怪的是,这个动作甚至会触发比读操作更昂贵的写操作。

https://github.com/apache/airflow/blob/2d79d730d7ff9d2c10a2e99a4e728eb831194a97/airflow/dag_processing/manager.py#L982-L1008

于 2021-12-29T20:16:36.823 回答