c++ - 创建一个在 MPI 进程之间保持同步的计数器

Question

我在使用基本的 comm 和 group MPI2 方法方面有相当多的经验，并且使用 MPI 做了很多令人尴尬的并行模拟工作。到目前为止，我已经将我的代码结构化为有一个调度节点和一堆工作节点。调度节点具有将与模拟器一起运行的参数文件列表。它使用参数文件为每个工作节点播种。工作节点运行它们的模拟，然后请求调度节点提供的另一个参数文件。运行所有参数文件后，调度节点会关闭每个工作节点，然后再自行关闭。

参数文件通常命名为“Par_N.txt”，其中 N 是标识整数（例如，N = 1-1000）。所以我在想，如果我可以创建一个计数器，并且可以让这个计数器在我的所有节点之间同步，我就可以消除对调度节点的需求，并使系统更简单一些。理论上这听起来很简单，但实际上我怀疑它有点困难，因为我需要确保计数器在更改时被锁定，等等。并且认为 MPI 可能有一种内置方式处理这个（事情。有什么想法吗？我是不是想太多了？

score 10 · Accepted Answer

实现一个共享计数器并非易事，但是一旦你完成它并将它放在某个库中的某个地方，你就可以用它做很多事情。

在使用 MPI-2书中，如果你要实现这些东西，你应该得到它，其中一个示例（代码可在线获得）是一个共享计数器。“不可扩展”的应该适用于几十个进程——计数器是一个 0..size-1 的整数数组，每个等级一个，然后“获取下一个工作项#”操作包括锁定窗口，读取其他人对计数器的贡献（在这种情况下，他们已经采取了多少项目），更新您自己的（++），关闭窗口并计算总数。这一切都是通过被动的片面操作来完成的。（更好的缩放只使用一棵树而不是一维数组）。

所以用途是你说 0 级托管计数器，每个人都继续做工作单元并更新计数器以获取下一个，直到没有更多工作为止；然后你在障碍物或其他地方等待并最终确定。

一旦你有这样的东西 - 使用共享值来获得下一个可用的工作单元 - 工作，那么你可以推广到更复杂的方法。因此，正如 suzterpatt 所建议的那样，每个人在开始时都接受“他们的份额”的工作单元效果很好，但是如果有些人完成得比其他人快怎么办？现在通常的答案是偷工减料。每个人都将他们的工作单元列表保存在一个出队中，然后当一个人用完工作时，它会从其他人的出队的另一端窃取工作单元，直到没有更多工作了。这实际上是完全分布式的 master-worker 版本，不再需要单一的 master 分区工作。一旦你有一个共享计数器工作，你就可以从中创建互斥体，然后你可以实现出队。

更新： 好的，所以这是一个 hacky-attempt 在做共享计数器 - 我在 MPI-2 书中的简单版本：似乎有效，但我不会说比这更强大的东西（没有玩过这个东西很久了）。有一个简单的计数器实现（对应于 MPI-2 书中的非缩放版本），带有两个简单的测试，一个大致对应于您的工作案例；每个项目都会更新计数器以获取工作项，然后执行“工作”（随机睡眠时间）。在每次测试结束时，计数器数据结构被打印出来，这是每个等级所做的增量#。

#include <mpi.h>
#include <stdlib.h>
#include <stdio.h>
#include <unistd.h>

struct mpi_counter_t {
    MPI_Win win;
    int  hostrank ;
    int  myval;
    int *data;
    int rank, size;
};

struct mpi_counter_t *create_counter(int hostrank) {
    struct mpi_counter_t *count;

    count = (struct mpi_counter_t *)malloc(sizeof(struct mpi_counter_t));
    count->hostrank = hostrank;
    MPI_Comm_rank(MPI_COMM_WORLD, &(count->rank));
    MPI_Comm_size(MPI_COMM_WORLD, &(count->size));

    if (count->rank == hostrank) {
        MPI_Alloc_mem(count->size * sizeof(int), MPI_INFO_NULL, &(count->data));
        for (int i=0; i<count->size; i++) count->data[i] = 0;
        MPI_Win_create(count->data, count->size * sizeof(int), sizeof(int),
                       MPI_INFO_NULL, MPI_COMM_WORLD, &(count->win));
    } else {
        count->data = NULL;
        MPI_Win_create(count->data, 0, 1,
                       MPI_INFO_NULL, MPI_COMM_WORLD, &(count->win));
    }
    count -> myval = 0;

    return count;
}

int increment_counter(struct mpi_counter_t *count, int increment) {
    int *vals = (int *)malloc( count->size * sizeof(int) );
    int val;

    MPI_Win_lock(MPI_LOCK_EXCLUSIVE, count->hostrank, 0, count->win);

    for (int i=0; i<count->size; i++) {

        if (i == count->rank) {
            MPI_Accumulate(&increment, 1, MPI_INT, 0, i, 1, MPI_INT, MPI_SUM,
                           count->win);
        } else {
            MPI_Get(&vals[i], 1, MPI_INT, 0, i, 1, MPI_INT, count->win);
        }
    }

    MPI_Win_unlock(0, count->win);
    count->myval += increment;

    vals[count->rank] = count->myval;
    val = 0;
    for (int i=0; i<count->size; i++)
        val += vals[i];

    free(vals);
    return val;
}

void delete_counter(struct mpi_counter_t **count) {
    if ((*count)->rank == (*count)->hostrank) {
        MPI_Free_mem((*count)->data);
    }
    MPI_Win_free(&((*count)->win));
    free((*count));
    *count = NULL;

    return;
}

void print_counter(struct mpi_counter_t *count) {
    if (count->rank == count->hostrank) {
        for (int i=0; i<count->size; i++) {
            printf("%2d ", count->data[i]);
        }
        puts("");
    }
}

int test1() {
    struct mpi_counter_t *c;
    int rank;
    int result;

    c = create_counter(0);

    MPI_Comm_rank(MPI_COMM_WORLD, &rank);
    result = increment_counter(c, 1);
    printf("%d got counter %d\n", rank, result);

    MPI_Barrier(MPI_COMM_WORLD);
    print_counter(c);
    delete_counter(&c);
}


int test2() {
    const int WORKITEMS=50;

    struct mpi_counter_t *c;
    int rank;
    int result = 0;

    c = create_counter(0);

    MPI_Comm_rank(MPI_COMM_WORLD, &rank);
    srandom(rank);

    while (result < WORKITEMS) {
        result = increment_counter(c, 1);
        if (result <= WORKITEMS) {
             printf("%d working on item %d...\n", rank, result);
             sleep(random() % 10);
         } else {
             printf("%d done\n", rank);
         }
    }

    MPI_Barrier(MPI_COMM_WORLD);
    print_counter(c);
    delete_counter(&c);
}

int main(int argc, char **argv) {

    MPI_Init(&argc, &argv);

    test1();
    test2();

    MPI_Finalize();
}

score 3 · Accepted Answer

我想不出任何内置机制来解决这个问题，你必须手动实现它。从您的评论来看，您希望分散程序，在这种情况下，每个进程（或至少是进程组）都必须保持自己的计数器值并保持同步。这可能可以通过巧妙地使用非阻塞发送/接收来完成，但这些语义并非微不足道。

相反，我会通过简单地一次向工作进程发出多个文件来解决饱和问题。这将减少网络流量并允许您保持简单的单一调度程序设置。

score 0 · Accepted Answer

目前尚不清楚是否需要以严格的顺序浏览文件。如果不是，为什么不让每个节点i处理所有文件N % total_workers == i——也就是说，循环分配工作？

score 0 · Accepted Answer

似乎您正在使用调度节点进行动态负载平衡（当处理器可用时将工作分配给处理器）。不需要所有处理器停止的共享计数器不会这样做。我建议保留您现在拥有的东西，或者按照 suszterpatt 的建议，一次发送一批文件。

c++ - 创建一个在 MPI 进程之间保持同步的计数器

4 回答 4

Related

Reference