0

我的任务是维护一个 Rocks(基于 Centos 6.2)集群,其中头节点配置有一个到公共网络的静态 IP,并充当内部专用网络上计算节点的 NAT 路由器。这些节点通过标准以太网和 QDR Infiniband 连接到头节点。

最近,计算节点无法访问外部数据源以开始计算,因为当它们使用 wget 拉取公开可用的数据集时,DNS 查找失败。所有计算节点都在其 /etc/resolv.conf 中配置了头节点的 IP,我检查了头节点上的 iptables 防火墙,没有任何变化。SSH 在所有节点和头节点之间工作。当我使用某些数据源的IP地址进行手动传输时,数据再次流动,但某些应用程序无法使用IP来抓取数据。我已经尝试重新启动命名和 iptables 防火墙,但到目前为止还没有修复它。系统日志(dmesg、/var/log/messages)没有显示突然的故障或错误消息,我最近没有进行任何配置更改,直到大约 2 晚前,几个月来一切都运行良好。头节点可以很好地访问和解析名称,只有 NAT 头节点后面的计算节点不工作。

我仍然不熟悉 Rocks 的所有工作原理,并且不确定是否有一些特殊的 Rocks 命令我忽略了以使其再次工作。为了使 DNS 解析再次正常工作,我可能缺少什么?

提前致谢!

更新:DNS 在计算节点和头节点之间在内部工作(例如,compute-10-10 从所有其他节点解析为该节点的 IP 地址),因此头节点可以正常用作集群 DNS。对于所有计算节点,对本地区域之外的域的请求仍然失败(例如 nslookup google.com 失败)。

4

1 回答 1

0

根本原因是上游 DNS 服务器出现故障。将 /etc/named.conf 转发器选项重新配置到其他服务器,所有计算节点可以再次访问外部资源。

于 2017-10-28T21:09:44.750 回答