4

我正在尝试在具有 MXM Infiniband 网络(40 Gbps,型号:Mellanox Technologies MT26428)的集群上运行多语言环境教堂代码。

我遵循了 Chapel 和 GASNet 文档,并设置了

export CHPL_COMM_SUBSTRATE=ibv

export CHPL_LAUNCHER=gasnetrun_ibv

export GASNET_IBV_SPAWNER=mpi

而不是使用CHPL_COMM_SUBSTRATE=mxm, 一旦 mxm 被弃用。

问题是我可以使用 ibv 基板构建 Chapel。但是,我不能在多个语言环境中运行。我收到大量超时错误。

首先,我认为问题出在 PKEY 上。所以,我添加"--mca btl_openib_pkey "0x8100""MPIRUN_CMD. 但是,没有成功。

我还尝试使用已弃用的 mxm 配置:

CHPL_LAUNCHER=gasnetrun_mxm

export CHPL_LAUNCHER=gasnetrun_ibv

export GASNET_MXM_SPAWNER=mpi

但是,我无法使用这样的配置构建 Chapel。那是错误信息:

"User requested --enable-mxm, but I don't know how to build mxm programs for your system."

顺便说一句,在没有分区密钥的情况下,在 MPI、UDP 和 Infiniband 之上使用 GASNET 可以正常工作。

有人知道如何在配备 MXM Infiniband 网络和分区密钥 (PKEY) 的集群上使用 Chapel 吗?

此致,

蒂亚戈·卡内罗。

4

1 回答 1

6

蒂亚戈,

作为 GASNet 的 ibv-conduit(对 libibverbs 的支持)的作者和维护者,我可以告诉你,我们从未支持过非默认 PKey。该消息*** FATAL ERROR: failed to connect (snd) status=12与使用了错误的 PKey 一致。

根据您在此处提出的问题,我已尝试为用户指定的 PKey 提供支持。你可以在 Bitbucket 的 GASNet git 存储库中找到我的原型作为拉取请求: https ://bitbucket.org/berkeleylab/gasnet/pull-requests/248 (或https://bitbucket.org/PHHargrove/gasnet-public /commits/ibv-pkey/raw仅获取原始补丁)。您应该能够在third-party/gasnet/gasnet-srcChapel 源目录中的该 PR 中应用一个提交。我没有要测试的分区 IB 网络。因此,如果您可以验证这可以解决您的问题,您将帮助我。

关于User requested --enable-mxm, but I don't know how to build mxm programs for your system,我怀疑 GASNet 的配置探针无法找到必要的头文件或库。失败的详细信息应在下面的config.log文件中third-party/gasnet/build。如果您的 mxm 头文件和库安装在其他位置,/opt/mellanox/mxm那么您可以在构建 Chapel 时设置环境变量MXM_HOME,以告知 GASNet 的配置脚本实际位置。但是,我不知道 libmxm 中有任何 PKey 支持。所以,这可能是一个死胡同。

-保罗

于 2018-12-11T05:15:37.163 回答