我试图弄清楚如何for reduction()
在 CUDA 中使用 OpenMP 的等价物。我在网上做了一些研究,但我尝试过的都没有奏效。编码:
#pragma omp parallel for reduction(+:sum)
for (i = 0; i < N; i++)
{
float f = ... //store return from function to f
out[i] = f; //store f to out[i]
sum += f; //add f to sum and store in sum
}
我知道for reduction()
OpenMP 中的作用......它使 for 循环的最后一行成为可能。但是我怎样才能用 CUDA 来表达同样的东西呢?
谢谢!