我面临一个非常奇怪的问题。我已经在 openshift 容器上使用 ambari 安装了 HDP 2.6.4 集群。一切工作正常,除了一件事,我添加了 8 个数据节点,并且一次只有 5 个数据节点处于活动状态。
主要问题是,当我检查它的 namenode web ui 或 hdfs dfsadmin -report 时,活动节点的名称会在一段时间后不断变化。而活动节点的总数是相同的 5/8。我试图检查datanodes日志正在重新启动ambari-agent和datanodes,datanode日志中没有错误。
问题依然存在。PFA 具有不同活动节点名称的 namenode webui 图片。在 pic-1 中显示 node-7 在 pics-2 中显示 node-8 在 live 中,它也与其他节点名称保持一致。
我在名称节点日志中不断低于日志
2018-03-07 07:11:03,693 INFO net.NetworkTopology (NetworkTopology.java:add(427)) - Adding a new node: /default-rack/10.128.0.1:50010
2018-03-07 07:11:03,694 INFO blockmanagement.BlockReportLeaseManager (BlockReportLeaseManager.java:registerNode(205)) - Registered DN 56f106cc-cfb6-421f-b9fc-024a84a89c14 (10.128.0.1:50010).
2018-03-07 07:11:03,695 INFO blockmanagement.DatanodeDescriptor (DatanodeDescriptor.java:updateHeartbeatState(401)) - Number of failed storage changes from 0 to 0
2018-03-07 07:11:03,695 INFO blockmanagement.DatanodeDescriptor (DatanodeDescriptor.java:updateStorage(854)) - Adding new storage ID DS-def957ad-51ed-4d0e-90f4-61582ff01a8a for DN 10.128.0.1:50010
2018-03-07 07:11:03,898 INFO hdfs.StateChange (DatanodeManager.java:registerDatanode(954)) - BLOCK* registerDatanode: from DatanodeRegistration(10.128.0.1:50010, datanodeUuid=eac46cc3-a4e6-47e3-a15e-114a298da53e, infoPort=50075, infoSecurePort=0, ipcPort=8010, storageInfo=lv=-56;cid=CID-08d20112-9269-47cc-a86d-4e213d221aad;nsid=935392924;c=0) storage eac46cc3-a4e6-47e3-a15e-114a298da53e
2018-03-07 07:11:03,898 INFO namenode.NameNode (DatanodeManager.java:registerDatanode(962)) - BLOCK* registerDatanode: 10.128.0.1:50010
2018-03-07 07:11:03,898 INFO net.NetworkTopology (NetworkTopology.java:remove(501)) - Removing a node: /default-rack/10.128.0.1:50010
2018-03-07 07:11:03,898 INFO blockmanagement.DatanodeDescriptor (DatanodeDescriptor.java:updateHeartbeatState(401)) - Number of failed storage changes from 0 to 0
任何方向都会有所帮助。
- 谢谢