0

我正在运行一个并行应用程序,它运行正常,直到突然中止,并从几个核心进行以下按摩:

[n18:mpi_rank_91][handle_cqe] Send desc error in msg to 103, wc_opcode=0
[n18:mpi_rank_91][handle_cqe] Msg from 103: wc.status=12, wc.wr_id=0xbc8d140, wc.opcode=0, vbuf->phead->type=0 = MPIDI_CH3_PKT_EAGER_SEND
[n18:mpi_rank_91][handle_cqe] src/mpid/ch3/channels/mrail/src/gen2/ibv_channel_manager.c:587: [] Got completion with error 12, vendor code=0x81, dest rank=103 : Numerical result out of range (34)

我是 MPI 使用/调试的新手。我的搜索没有得出明确的结论(即https://software.intel.com/en-us/node/535587);以上按摩指的是什么?如何通过这样的按摩在并行(Fortran)代码中找到错误?

一个后续问题:如果我的应用程序有一个内部重块,其中部分节点正在花费越来越多的时间,完成任务的节点在Infiniband达到拥塞之前可以在接口处等待较慢的节点多长时间?

4

0 回答 0