hadoop - Hadoop 集群故障转移

Question

我对 Hadoop Cluster 数据节点故障转移有一些疑问：

1: What happen the link is down between the namenode and a datanode 
   (or between 2 datanodes) when the hadoop cluster is processing some data?
   Does Hadoop cluster have any OOTB to recover this problem?
2: What happen one datanode is down when the hadoop cluster is processing 
   some data?

另外，另一个问题是关于 hadoop 集群的硬件配置。假设我们将使用我们的 hadoop 集群每天处理 100GB 的日志文件，我们需要设置多少个数据节点？对于每个数据节点的硬件配置（例如 CPU、RAM、硬盘）？

score 2 · Accepted Answer

1：当hadoop集群正在处理一些数据时，namenode和一个datanode（或2个datanode之间）的链接断开了怎么办？Hadoop 集群是否有任何 OOTB 来恢复这个问题？

NN 不会收到来自该节点的任何心跳，因此认为它已死。在这种情况下，在该节点上运行的任务将被安排在其他具有该数据的节点上。

2：hadoop集群在处理一些数据的时候，一个datanode宕机了怎么办？

和上面一样。

对于您问题的第二部分：

这完全取决于您的数据和您要执行的处理类型以及其他一些事情。首先，100G 不适合 MR 处理。但是，如果您仍然需要它，任何体面的机器都足以处理 100G 数据。

作为经验法则，您可以考虑：

RAM ：每 100 万个 HDFS 块需要 1G RAM+一些额外的用于其他东西。
CPU：完全根据您的需要。
磁盘：数据大小的 3 倍（如果复制因子 =3）+一些额外的空间用于临时文件、其他应用程序等。JBOD 更可取。

坦率地说，这个过程涉及更多。我强烈建议您通过此链接以获得正确的想法。

我将从一个有 5 台机器的集群开始：

1 * 主(NN+JT) -

磁盘： JBOD 配置中的 3 * 1TB 硬盘（1 个用于操作系统，2 个用于 FS 映像）

CPU： 2个四核CPU，运行至少2-2.5GHz

内存： 32 GB 内存
3 * 从站(DN+TT) -

磁盘： JBOD（Just a Bunch Of Disks）配置中的 3 * 2 TB 硬盘

CPU： 2个四核CPU，运行至少2-2.5GHz

内存： 16 GB 内存
1 * SNN -

我会保持它与主机相同。

score 1 · Accepted Answer

根据 namenode 或 datanode 是否关闭，作业将重新连接到不同的机器。HDFS 就是为此专门设计的。是的，它绝对是开箱即用的。
如果有更多可用的数据节点，则转移作业。

100GB不足以证明使用 hadoop 是合理的。除非绝对需要，否则不要使用 hadoop。

hadoop - Hadoop 集群故障转移

2 回答 2

Related

Reference