0

我们有 ambari 集群版本 - 2.6.1 和 hadoop 版本 2.6.4

数据节点的数量是 - 10

从 ambari 仪表板我们可以看到显示以下内容的窗口:

   DataNodes Live

   9/10

但几分钟后,所有数据节点都还活着:

   DataNodes Live

   10/10

几分钟后我们再次看到

   DataNodes Live

   9/10

似乎namenode没有收到来自datanode的心跳消息超过时间间隔,那么datanode将被标记为“dead”

我们检查以下内容:

  1. 主机解析是 - 好的(DNS 是好的)
  2. IP 解析正常(DNS 正常)
  3. HDFS服务检查成功通过
  4. 每个数据节点都已启动( ps -ef | grep datanode | grep -v grep )
  5. 网络统计-anp | grep '0.0.0.0:50010' 端口没问题
  6. systemctl status firewalld.service(防火墙应该是关闭的)
  7. sestatus SELinux 状态(禁用)
  8. MTU 配置为 9000(我们验证所有组件上的 9000 设置正确)

我们还能做些什么来验证为什么 DataNode alive 不稳定?

4

1 回答 1

1

从那时起,我们将数据节点堆大小从默认值 - 2G 增加到 6G ,现在来自 ambari 仪表板的数据节点处于稳定状态

于 2018-12-26T19:37:20.577 回答