0

通过阅读有关 YARN 的文档,我在 YARN 中找不到有关资源管理器、节点管理器和应用程序主控的 HA 的任何相关信息。它们是单点故障吗?如果有,有什么改进的计划吗?

4

1 回答 1

3

YARN 集群由可能大量的机器(“节点”)组成。要成为集群的一部分,每个节点都至少运行一个服务守护进程。服务守护进程的类型决定了该节点在集群中执行的任务。

几乎所有节点都运行“节点管理器”服务守护程序,这使它们成为“常规”YARN 节点。节点管理器负责在这台机器上执行 YARN 作业的某个部分,而其他部分在其他节点上执行。在每个节点上运行一个节点管理器才有意义。对于 1000 个节点的 YARN 集群,可能有大约 999 个节点管理器在运行。所以节点管理器确实冗余地分布在集群中。如果一个节点管理器出现故障,则分配其他节点管理器来接管其任务。

每个 YARN 作业都是它自己的应用程序,并且在其中一个节点上为该作业启动一个专用的应用程序主守护程序。对于另一个应用程序,另一个应用程序主机在不同的节点上启动。应用程序的实际工作甚至在集群中的其他节点上执行。应用程序主机只控制应用程序的整体执行。如果一个应用程序主死了,整个应用程序已经失败,但其他应用程序将继续。必须重新启动失败的应用程序。

资源管理器守护进程运行在一个专用的 YARN 节点上,只负责启动应用程序(通过启动相关的应用程序主控),收集有关集群中所有节点的信息,并将计算资源分配给应用程序。资源管理器当前不是构建为 HA,但这通常不是问题。如果资源管理器死掉,所有应用程序都需要重新启动。

于 2013-11-24T21:53:24.593 回答