我是使用 Microsoft Azure 进行科学计算的新手,在设置时遇到了一些问题。
我有一个跳转盒设置,它充当我想要使用的软件的许可证服务器,还有一个公共驱动器来存储所有软件。还设置了 6 个计算节点(16 个核心/节点),我可以毫无问题地从跳转盒“ssh”到计算节点。跳转盒和计算节点使用 CentOS 和 OpenMPI 1.10.3
我创建了一个脚本,该脚本存储在已安装的跳转盒驱动器上,我通过“clusRun.sh”在每个计算节点上运行该驱动器,它设置了特定于我运行的软件和 OpenMPI 的所有环境变量。希望这一切听起来都很好。
过去我在 Linux 集群上使用过这个软件很多,没有问题。作业是使用类似的命令提交的,例如:
mpirun -np XXX -hostfile XXX {软件路径}
其中 XXX 是处理器的数量和主机文件的路径
我在跳转框上运行这个命令,并且主机文件有一个每个计算节点的名称列表,每个计算节点名称在主机文件中的次数与我想要在节点上的核心相同。希望这是有道理的!跳转框节点上运行的作业没有进程,它仅用于启动作业。
当我尝试以这种方式运行作业时,我收到了许多错误,大多数似乎与 Infiniband 相关。以下是关键错误的简短列表:
"The /dev/hfi1_0 device failed to appear after 15.0 seconds: Connection timed out"
"The OpenFabrics (openib) BTL failed to initialize while trying to create an internal queue"
"OMPI source: btl_openib.c:324
Function: ibv_create_srq()
Error: Function not implemented (errno=38)
Device: mlx4_0"
“至少一对 MPI 进程无法相互进行 MPI 通信。这意味着没有 Open MPI 设备表明它可以用于在这些进程之间进行通信”
是否有任何特定于 OpenMPI 的环境变量需要设置来定义任何 Infiniband 设置?我已经定义了常用的 MPI_BIN、LD_LIBRARY_PATH、PATH 等。我知道 IntelMPI 需要额外的变量。
Infiniband 应该是 A9 HPC 分配的一部分,但我不确定它是否需要任何特定设置。当我运行“ifconfig -a”时,没有特定于 Infiniband 的条目(我希望看到 ib0、ib1 等)。我只有 eth0、eth1 和 lo
我期待有人可能提供的任何建议。
亲切的问候!