MPI_Reduce
完全按照它应该工作的方式工作。你是那个没有按照它应该被使用的方式使用它的人。
MPI_Reduce
执行按元素减少数据,分布在 MPI 作业的等级中。源缓冲区和目标缓冲区都应该是 size 数组arraysize
,例如:
int arr[arraysize];
int result[arraysize];
// Fill local arr with meaningful data
...
// Perform reduction
MPI_Reduce(arr, result, arraysize, MPI_INT, MPI_MAX, 0, MPI_COMM_WORLD);
以下是什么MPI_Reduce
:
result[0] = max(arr_0[0], arr_1[0], ..., arr_(N-1)[0]);
result[1] = max(arr_0[1], arr_1[1], ..., arr_(N-1)[1]);
...
result[arraysize-1] = max(arr_0[arraysize-1], ..., arr_(N-1)[arraysize-1]);
其中arr_0
是arr
rank 0arr_1
的副本,arr
是 rank 1 的副本,依此类推。
的组合MPI_Bcast
,然后是减少,绝对MPI_MAX
没有任何作用,因为广播后的所有副本都arr
将具有相同的值,并且逐元素max
减少的应用只会产生相同的值。更糟糕的是,我会假设result
在您的代码中是一个标量整数变量,因此MPI_Reduce
会覆盖arraysize-1
过去的元素result
并且很可能会破坏堆栈框架,覆盖my_process_id
in rank的值,0
因此它0
不再是(因此没有打印任何内容)和崩溃排名0
然后。当然,这完全取决于局部变量在堆栈中的排列方式——其含义可能没有我描述的那么严重。
如果您想找到一个数组的最大值,您应该首先使用 分配它MPI_Scatter
,然后使用MPI_Reduce
执行元素级归约,然后对结果执行另一次归约:
int elements_per_proc = arraysize/number_of_processes;
int arr[arraysize];
int subarr[elements_per_proc];
int partres[elements_per_proc];
// Distribute the array
MPI_Scatter(arr, elements_per_proc, MPI_INT,
subarr, elements_per_proc, MPI_INT, 0, MPI_COMM_WORLD);
// Perform element-wise max reduction
MPI_Reduce(subarr, partres, elements_per_proc, MPI_INT,
MPI_MAX, 0, MPI_COMM_WORLD);
// Take the highest of the partial max values
result = partres[0];
for (int i = 1; i < elements_per_proc; i++)
if (partres[i] > result) result = partres[i];
现在你有了 中最大元素的值result
。
甚至更好:
int localmax;
// Distribute the array
MPI_Scatter(arr, elements_per_proc, MPI_INT,
subarr, elements_per_proc, MPI_INT, 0, MPI_COMM_WORLD);
// Find the maximum element of the local subarray
localmax = subarr[0];
for (int i = 1; i < elements_per_proc; i++)
if (subarr[i] > localmax) localmax = subarr[i];
// Perform global max reduction
MPI_Reduce(&localmax, &result, 1, MPI_INT, MPI_MAX, 0, MPI_COMM_WORLD);