设置 Apache Airflow 集群的最低硬件要求是什么。
例如。集群中不同类型节点的 RAM、CPU、磁盘等。
在伪分布式模式下使用非常小的实例(32 个并行工作者;Postgres 后端),我没有遇到任何问题:
如果你想要分布式模式,如果你保持同质化,你应该会更好。无论如何,气流不应该真的做繁重的工作。将工作负载推向其他事物(Spark、EMR、BigQuery 等)。
您还必须运行某种消息队列,例如 RabbitMQ。我认为他们也采用 Redis。但是,这并不会真正显着影响您的大小。
我们使用以下配置在 AWS 中运行气流
t2.small --> 气流调度程序和网络服务器
db.t2.small --> 用于 Metastore 的 postgres
airflow.cfg 中的parallelism 参数设置为10,大约有10 个用户访问airflow UI
我们从气流所做的只是 ssh 到其他实例并从那里运行代码