我想请您解释一下什么是“InfiniBand-Stacks”。这些最近在我们的机器上进行了更改,我开始遇到 MPI 通信故障。我需要一些信息来了解这可能如何影响我的并行作业的稳定性。
我得到的实际错误消息是:
进程未能创建队列对。这通常意味着设备已用完队列对(连接太多)或没有足够的资源可用于分配队列对(内存不足)。如果 1) 可用内存不足,或 2) 无法向设备注册更多物理内存,则可能会发生后者。
[connect/btl_openib_connect_oob.c:867:rml_recv_cb] 端点回复开始连接时出错