c++ - C++：奇怪的指针损坏错误

Question

我有以下情况：我编写了一些简短的 MPI 测试代码，以便找出哪种发送和接收操作组合在我的代码中效果最好。

该代码在我自己的计算机上运行良好（使用 8 个进程进行了测试），但是一旦我在我正在处理的集群中运行它，我就会得到一个损坏或双重释放的指针的巨大错误输出，这就是输出： http: //pastebin.com/pXTRSf89

我在我的代码中所做的如下：我调用我的通信函数 100K 次并测量时间。该功能如下图所示。我发现，错误总是发生在同一次迭代中（大约 6K 左右）。然而，报告的处理器 ID 确实发生了变化。即使我使用 64 个 proc 而不是 8 个，迭代也是相同的。问题是：我完全不知道，可能出了什么问题，尤其是因为没有释放或分配指针。

void communicateGrid(int level, real* grid, const Subdomain& subdomain, std::vector<TimeMap>& tm_) {
    tm_[level]["CommGrid"].start();

    MPI_Status status[2];
    MPI_Request request[2];

    // x 
    MPI_Isend(&grid[getIndexInner(level, 1, 1, 1) + innerGridpoints_[level][0] - numOuterGridpoints_[level]], 1, mpiTypes_[level * 4 + 1], subdomain.upperNeighbors[0], 0, MPI_COMM_WORLD, &request[0]);
    MPI_Isend(&grid[getIndexInner(level, 1, 1, 1)], 1, mpiTypes_[level * 4 + 1], subdomain.lowerNeighbors[0], 1, MPI_COMM_WORLD, &request[1]);

    MPI_Recv(&grid[getIndexInner(level, 1,1,1) + innerGridpoints_[level][0]], 1, mpiTypes_[level * 4 + 1], subdomain.upperNeighbors[0], 1, MPI_COMM_WORLD, &status[0]);
    MPI_Recv(&grid[getIndexInner(level, 1,1,1) - numOuterGridpoints_[level]], 1, mpiTypes_[level * 4 + 1], subdomain.lowerNeighbors[0], 0, MPI_COMM_WORLD, &status[1]);

    //y 
    MPI_Isend(&grid[getIndex(level, 0, innerGridpoints_[level][1], 0)], 1, mpiTypes_[level * 4 + 2], subdomain.upperNeighbors[1], 2, MPI_COMM_WORLD, &request[0]);
    MPI_Isend(&grid[getIndex(level, 0, numOuterGridpoints_[level], 0)], 1, mpiTypes_[level * 4 + 2], subdomain.lowerNeighbors[1], 3, MPI_COMM_WORLD, &request[1]);

    MPI_Recv(&grid[getIndex(level, 0, innerGridpoints_[level][1] + numOuterGridpoints_[level], 0)], 1, mpiTypes_[level * 4 + 2], subdomain.upperNeighbors[1], 3, MPI_COMM_WORLD, &status[0]);
    MPI_Recv(grid, 1, mpiTypes_[level * 4 + 2], subdomain.lowerNeighbors[1], 2, MPI_COMM_WORLD, &status[1]);

    // z
    MPI_Isend(&grid[getIndex(level, 0, 0, innerGridpoints_[level][2])], 1, mpiTypes_[level * 4 + 3], subdomain.upperNeighbors[2], 4, MPI_COMM_WORLD, &request[0]);
    MPI_Isend(&grid[getIndex(level, 0, 0, numOuterGridpoints_[level])], 1, mpiTypes_[level * 4 + 3], subdomain.lowerNeighbors[2], 5, MPI_COMM_WORLD, &request[1]);

    MPI_Recv(&grid[getIndex(level, 0, 0, numOuterGridpoints_[level] + innerGridpoints_[level][2])], 1, mpiTypes_[level * 4 + 3], subdomain.upperNeighbors[2], 5, MPI_COMM_WORLD, &status[0]);
    MPI_Recv(grid, 1, mpiTypes_[level * 4 + 3], subdomain.lowerNeighbors[2], 4, MPI_COMM_WORLD, &status[1]);

    tm_[level]["CommGrid"].stop();
}

mpiTypes_ 是 MPI_Datatype* 类型的全局变量，innerGridpoints_ 和 numOuterGridpoints_ 也是全局变量（我知道这不是一个好的编码风格，但我只是为了计时）。我很确定我的数据类型是正确的，因为它们在另一种通信功能设置中工作（例如 Irecv 后跟发送）。

最后说明：我只是尝试只使用一个进程来运行它。然后出现以下错误：

排名 0 [Mon Apr 22 02:11:23 2013] [c0-0c1s3n0] PMPI_Isend 中的致命错误：内部 MPI 错误！，错误堆栈：PMPI_Isend(148)：MPI_Isend(buf=0x2aaaab7b531c，count=1，dtype=USER， dest=0，tag=1，MPI_COMM_WORLD，request=0x7fffffffb4d4) 失败（未知）（）：内部 MPI 错误！_pmiu_daemon(SIGCHLD): [NID 00070] [c0-0c1s3n0] [Mon Apr 22 02:11:23 2013] PE RANK 0 exit signal Aborted

同样，这仅发生在集群上，但在我的机器上有效。

我很高兴我能检查什么或错误可能在哪里！谢谢

score 2 · Accepted Answer

您必须等待或测试由创建的那些 MPI 请求或其他东西MPI_Isend()，否则您将泄漏内部资源，并最终崩溃，这就是正在发生的事情。

Jeff Squyres 在他在 Cisco 的博客文章中说得很好。

您知道那些 Isend 正在完成，但 MPI 库无法知道这一点并清理那些MPI_Requests 分配和指向的资源。需要多少资源和什么样的资源取决于很多事情，包括底层网络连接（例如会占用稀缺的 infiniband 资源），因此它在您自己的机器上运行但在集群上运行并不一定令人惊讶.

您可以通过添加来解决此问题

MPI_Waitall(2, request,  status);

MPI_Isend在/ MPI_Recv()s 的每个阶段之后。

这不仅是清理资源所必需的，它实际上是具有非阻塞请求的程序的正确性所必需的。

c++ - C++：奇怪的指针损坏错误

1 回答 1

Related

Reference