问题:
越来越多的数据节点在 Cloudera Manager 中变得不健康。
线索1:
没有任何任务或作业,这里只是一个空闲的数据节点,
最佳
-bash-4.1$ top top - 18:27:22 up 4:59, 3 个用户,平均负载:4.55, 3.52, 3.18
任务:共 139 个,运行 1 个,睡眠 137 个,停止 1 个,僵尸 0 个
中央处理器:14.8%us、85.2%sy、0.0%ni、0.0%id、0.0%wa、0.0%hi、0.0%si、0.0%st
内存:总共 7932720k,已使用 1243372k,空闲 6689348k,52244k 缓冲区
交换:总共 6160376k,使用 0k,免费 6160376k,缓存 267228k
PID 用户 PR NI VIRT RES SHR S %CPU %MEM TIME+ 命令
13766 根 20 0 2664m 21m 7048 S 85.4 0.3 190:34.75 java
17688 根 20 0 2664m 19m 7048 S 75.5 0.3 1:05.97 java
12765 根 20 0 2859m 21m 7140 S 36.9 0.3 133:25.46 java
2909 mapred 20 0 1894m 113m 14m S 1.0 1.5 2:55.26 java
1850 根 20 0 1469m 62m 4436 S 0.7 0.8 2:54.53 蟒蛇
1332 根 20 0 50000 3000 2424 S 0.3 0.0 0:12.04 vmtoolsd
2683 hbase 20 0 1927m 152m 18m S 0.3 2.0 0:36.64 java
线索2:
-bash-4.1$ ps -ef|grep 13766 根 13766 1850 99 16:01 ?03:12:54 java -classpath /usr/share/cmf/lib/agent-4.6.3.jar com.cloudera.cmon.agent.DnsTest
线索3:
在 cloudera-scm-agent.log 中,
[30/Aug/2013 16:01:58 +0000] 1850 Monitor-HostMonitor throttling_logger 错误超时,参数为 ['java'、'-classpath'、'/usr/share/cmf/lib/agent-4.6.3.jar ','com.cloudera.cmon.agent.DnsTest'] 无 [30/Aug/2013 16:01:58 +0000] 1850 Monitor-HostMonitor throttling_logger 错误无法收集基于 java 的 DNS 名称 Traceback(最近一次调用最后) :
文件“/usr/lib64/cmf/agent/src/cmf/monitor/host/dns_names.py”,第 53 行,收集结果,stdout,stderr = self._subprocess_with_timeout(args, self._poll_timeout)
_subprocess_with_timeout 中的文件“/usr/lib64/cmf/agent/src/cmf/monitor/host/dns_names.py”,第 42 行 return SubprocessTimeout().subprocess_with_timeout(args, timeout)
文件“/usr/lib64/cmf/agent/src/cmf/monitor/host/subprocess_timeout.py”,第 70 行,在 subprocess_with_timeout 中
raise Exception("timeout with args %s" % args)
例外:参数超时 ['java', '-classpath', '/usr/share/cmf/lib/agent-4.6.3.jar', 'com.cloudera.cmon.agent.DnsTest']
“cloudera-scm-agent.log”第 30357 行,第 30357 行 --100%-- 第 1 列
背景:
如果我重新启动所有节点,则一切正常,但半小时或更长时间后,健康状况将一一出现。
版本:Cloudera Standard 4.6.3(#192 由 jenkins 在 20130812-1221 git 上构建:fa61cf8559fbefeb5af7f223fd02164d1a0adfdb)
我在 /etc/hosts 中添加了所有节点
安装的 CDH 是 4.3.1。
实际上,这些节点是具有固定 IP 地址的虚拟机。
有什么建议么?
顺便说一句,我在哪里可以下载 com.cloudera.cmon.agent.DnsTest 的源代码?