hadoop - 如果 ResourceManager 宕机了怎么办？

Question

在最新版本的 Hadoop mapreduce（称为“Yarn”）中，JobTracker（存在于先前版本中）已被 ResourceManager（称为“RM”）和 ApplicationMaster 所取代。在 Yarn 架构的官方文档中，并没有说 MapReduce 集群中有多少个 RM，而给出的 Yarn 架构图显示一个集群中只有 1 个 RM。

那么，万一只有RM下来了呢？如果有多个 RM，它们如何协同工作？

希望有人能给我解释一下。谢谢。

score 1 · Accepted Answer

每个机架有 1 个 RessourceManager，但您的集群中可以有多个机架。

如果您在 RessourceManager 关闭时尝试提交作业，Hadoop 将尝试连接到 RessourceManager，因为它需要它来执行作业。

以下是 RM 关闭并尝试提交作业时的日志示例：

14/06/06 09:39:54 INFO ipc.Client: Retrying connect to server: hadoop01.sii.fr/10.6.6.211:8032. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
14/06/06 09:39:55 INFO ipc.Client: Retrying connect to server: hadoop01.sii.fr/10.6.6.211:8032. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
14/06/06 09:39:56 INFO ipc.Client: Retrying connect to server: hadoop01.sii.fr/10.6.6.211:8032. Already tried 3 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)

当 RM 返回时，作业正在正确提交。

hadoop - 如果 ResourceManager 宕机了怎么办？

1 回答 1

Related

Reference