apache-flink - 同时运行约 10 个批处理作业时，Flink 纱线会话模式变得不稳定

Question

我正在尝试设置一个 flink-yarn 会话来运行约 100 多个批处理作业。在连接到约 40 个任务管理器和约 10 个正在运行的作业（每个任务管理器有 2 个插槽和每个 1GB 内存）之后，会话看起来变得不稳定。有足够的可用资源。flink UI 突然变得不可用了，我猜作业经理可能已经死了。最终，纱线应用程序也被杀死了。

作业管理器在 4 核 16GB 节点上运行 12GB 可用

是否有任何指南可以计算作业管理器资源与其可以处理的任务管理器数量？

score 1 · Accepted Answer

我解决了这个问题。flink-session 中断的原因是集群中工作机器的低带宽。运行任务管理器容器的工作机器应至少具有 750Mbps 或更高的速度。每个任务管理器都有 2 个插槽和 1GB 内存，中等带宽 ~ 450Mbps 不会削减它。如果作业是 IO 密集型的，参与者（作业经理和工人或工人到工人）之间的通信可能会超时（默认询问超时为 100 毫秒）。

我决定不增加询问超时，这样工作就不会因为这个瓶颈而花费很长时间。

apache-flink - 同时运行约 10 个批处理作业时，Flink 纱线会话模式变得不稳定

1 回答 1

Related

Reference