我有以下代码片段,并且正在试验新的开普勒架构的功能。内核在具有固定 NUM_ITERATIONS 的循环中被调用多次。您是否认为将循环转移到父内核会有所帮助,即,与 CPU 相比,从 GPU 调用时内核开销是否更小?
是否可以使用动态并行来提高以下算法的性能?如果是这样,您能否建议一个类似的动态并行用例来帮助我在自己的程序中实现它?
for (i = 0; i < NUM_ITERATIONS; i++)
{
kernelGPU<<<gridSize, blkSize>>>(
d_a,
d_b,
d_c,
d_d,
d_e,
R,
V,
N
);
}