0

我有一个任务是在 OpenMPI 应用程序中实现简单的容错。我们遇到的问题是,尽管将 MPI 错误处理设置为MPI_ERRORS_RETURN,但当我们的一个节点从集群中拔出时,我们在长时间挂起后的下一次 MPI_ 调用中会收到以下错误:

[btl_tcp_endpoint.c:655:mca_btl_tcp_endpoint_complete_connect] connect() failed: Connection timed out (110)

我对此的看法是,当一个节点使用 OpenMPI 从网络中掉线时,不可能在所有其他节点上继续处理。任何人都可以为我确认这一点,或者为我指出防止 btl_tcp_endpoint 错误的方向吗?

我们使用的是 OpenMPI 1.6.5 版。

4

1 回答 1

3

MPI_ERRORS_RETURN 代码路径在 Open MPI 中没有经过很好的测试(并且可能没有很好地实现)。他们根本就不是一个优先事项,所以我们从来没有真正在这个领域做过很多工作。

对不起。

于 2013-10-27T15:04:19.377 回答