webserver - MPI_SEND 在 MPI_BARRIER 之后停止工作

Question

我正在用 C/MPI 构建一个分布式 Web 服务器，在我的代码中的第一个 MPI_BARRIER 之后，点对点通信似乎完全停止工作。标准 C 代码在屏障之后工作，所以我知道每个线程都会通过屏障。点对点通信在障碍之前也可以正常工作。但是，当我将与屏障之前的行相同的代码复制粘贴到屏障之后的行中时，它会完全停止工作。SEND 将永远等待。当我尝试改用 ISEND 时，它会通过线路，但从未收到过消息。我一直在谷歌上搜索这个问题，每个对 MPI_BARRIER 有问题的人都被告知屏障正常工作，他们的代码是错误的，但我终生无法弄清楚为什么我的代码是错误的。

这是一个示例程序，演示了这一点：

#include <mpi.h>
#include <stdio.h>

int main(int argc, char *argv[])
{
  int procID;
  int val;
  MPI_Status status;

  MPI_Init(&argc, &argv);
  MPI_Comm_rank(MPI_COMM_WORLD, &procID);
  MPI_Barrier(MPI_COMM_WORLD);

  if (procID == 0)
  {
    val = 4;
    printf("Before send\n");
    MPI_Send(&val, 1, MPI_INT, 1, 4, MPI_COMM_WORLD);
    printf("after send\n");
  }

  if (procID == 1)
  {
    val = 1;
    printf("before: val = %d\n", val);
    MPI_Recv(&val, 1, MPI_INT, MPI_ANY_SOURCE, MPI_ANY_TAG, MPI_COMM_WORLD, &status);
    printf("after: val = %d\n", val);
  }

  MPI_Finalize();
  return 0;
}

将这两个if语句移动到屏障之前会导致该程序正确运行。

编辑- 无论类型如何，第一次通信似乎都有效，并且所有未来的通信都失败了。这比我一开始想的要笼统得多。不管第一次通信是障碍还是其他消息，以后的通信都不会正常工作。

score 5 · Accepted Answer

当 Open MPI 使用 TCP/IP 进行通信时，它有一个已知功能：它尝试使用所有已配置的处于“UP”状态的网络接口。如果无法通过所有这些接口访问其他一些节点，则会出现问题。这是 Open MPI 采用的贪婪通信优化的一部分，有时，就像您的情况一样，会导致问题。

似乎至少第二个节点有多个接口处于启动状态，并且在协商阶段将这一事实引入第一个节点：

一个配置了 128.2.100.167
一个配置了 192.168.109.1 （你的机器上是否有隧道或 Xen 运行？）

屏障通信发生在第一个网络上，然后下一个MPI_Send尝试通过第二个网络发送到第二个地址，这显然不连接所有节点。

最简单的解决方案是告诉 Open MPI 仅使用连接节点的网络。您可以使用以下 MCA 参数告诉它这样做：

--mca btl_tcp_if_include 128.2.100.0/24

（或无论您的通信网络是什么）

如果在所有机器上都相同，您还可以指定网络接口列表，例如

--mca btl_tcp_if_include eth0

或者您可以告诉 Open MPI 专门排除某些接口（但如果这样做，您必须始终告诉它排除环回“lo”）：

--mca btl_tcp_if_exclude lo,virt0

希望对您和其他在 SO 周围似乎有同样问题的人有所帮助。看起来最近几乎所有的 Linux 发行版都开始默认提供各种网络接口，这可能会导致 Open MPI 出现问题。

PS 请把这些节点放在防火墙后面！

webserver - MPI_SEND 在 MPI_BARRIER 之后停止工作

1 回答 1

Related

Reference