我在所有等级上都有一个相同长度的数组(假设为 10)。数组中的一些值包含处理器的等级。例如 ...
Proc 1: [1 0 0 0 0 1 0 0 0 1]
Proc 2: [0 2 2 0 0 0 0 2 2 0]
Proc 3: [0 0 0 3 3 0 3 0 0 0]
现在所有处理器以以下数组结尾的最有效方式是什么(使用 MPI-2)
[1 2 2 3 3 1 3 2 2 1]
可以将其视为所有数组的总和(分布在所有等级上)。性能很重要,因为我想在 1K+ 内核上快速做到这一点。