0

我想请您解释一下什么是“InfiniBand-Stacks”。这些最近在我们的机器上进行了更改,我开始遇到 MPI 通信故障。我需要一些信息来了解这可能如何影响我的并行作业的稳定性。

我得到的实际错误消息是:

进程未能创建队列对。这通常意味着设备已用完队列对(连接太多)或没有足够的资源可用于分配队列对(内存不足)。如果 1) 可用内存不足,或 2) 无法向设备注册更多物理内存,则可能会发生后者。

[connect/btl_openib_connect_oob.c:867:rml_recv_cb] 端点回复开始连接时出错

4

2 回答 2

1

通常,当有人谈论与软件相关的某种“堆栈”时,他们指的是驱动程序/库/等。控制特定的硬件。例如,网络“堆栈”可能意味着您的应用程序和物理网络接口卡 (NIC) 之间的所有网络软件层。在这种情况下,这可能就是您的意思。

当然,还有另一种与内存分配相关的软件堆栈,但这不是它的意义所在。

无论如何,如果您没有更改应用程序中的任何内容(包括运行它的环境)并且您的系统管理员最近更新了 InfiniBand 驱动程序,那么 Open MPI 和您的 InfiniBand 库之间可能存在某种错误。通常情况并非如此,但您可能可以通过直接询问 Open MPI 人员来找到答案。他们中的一些人在 SO 上闲逛,但在大多数情况下,您需要通过电子邮件直接与他们联系users [at] open-mpi [dot] org

于 2014-06-19T14:26:18.057 回答
0

该消息中的“openib”表明是您的 OpenFabrics OFED 发生了变化并可能导致问题:https ://www.openfabrics.org/index.php 。看看您是否可以更改或隔离软件堆栈的其他部分,例如 OpenMPI 版本和应用程序代码。

此外,如果您使用 IMPI,请联系英特尔寻求支持。仅根据有多少用户,使用 OpenMPI 进行检查的建议是一个很好的建议,但它们对英特尔产品没有多大帮助。

于 2014-07-14T22:44:12.863 回答