2

我得到一个集群,其中节点在胖树 IB 中连接。开关是 Qlogic 12300。

我遇到的问题是某些节点无法相互通信。甚至还有其他节点可以与两个受影响的节点进行通信。

我使用 ibtracert 来诊断问题。令人惊奇的是,如果我在可以与两个节点通信的单独节点上运行该命令,它们就很好并报告了一条可行的路线。

但是,如果我从两个受影响的节点发出 ibtracert 命令,它就会出错。

我能问一下这可能的原因是什么吗?

谢谢。

4

1 回答 1

2

两个 HCA 无法相互通信,因为这是您子网中路由的配置方式。您可以从第三台机器与两台“有问题的”机器通话这一事实表明这不是主机的问题,而是子网的问题。

Infiniband 路由是一个复杂的问题,仅根据您的描述我不知道如何解决它。

通常,子网管理器正在计算和配置所有交换机上的路由。您使用的是哪种子网管理器?是在某个主机上运行的 OpenSM,还是在其中一台交换机上运行的 Qlogic 的 SM?

如果是 Qlogic,您需要转到他们的管理 UI 并更改/修复路由算法。如果是 OpenSM,您可以使用“ minhop”路由运行它(运行"opensm -h"以查看使用情况)——这应该可以解决问题。但是,这并不能真正解决问题 - 您可能在子网拓扑中遇到了问题,如果/一旦 minhop 路由解决了问题,这就是您需要关注的地方。

于 2014-02-26T10:21:27.667 回答