我们有 ambari 集群版本 - 2.6.1 和 hadoop 版本 2.6.4
数据节点的数量是 - 10
从 ambari 仪表板我们可以看到显示以下内容的窗口:
DataNodes Live
9/10
但几分钟后,所有数据节点都还活着:
DataNodes Live
10/10
几分钟后我们再次看到
DataNodes Live
9/10
似乎namenode没有收到来自datanode的心跳消息超过时间间隔,那么datanode将被标记为“dead”
我们检查以下内容:
- 主机解析是 - 好的(DNS 是好的)
- IP 解析正常(DNS 正常)
- HDFS服务检查成功通过
- 每个数据节点都已启动( ps -ef | grep datanode | grep -v grep )
- 网络统计-anp | grep '0.0.0.0:50010' 端口没问题
- systemctl status firewalld.service(防火墙应该是关闭的)
- sestatus SELinux 状态(禁用)
- MTU 配置为 9000(我们验证所有组件上的 9000 设置正确)
我们还能做些什么来验证为什么 DataNode alive 不稳定?