cuda - 使用动态并行优化算法

Question

我有以下代码片段，并且正在试验新的开普勒架构的功能。内核在具有固定 NUM_ITERATIONS 的循环中被调用多次。您是否认为将循环转移到父内核会有所帮助，即，与 CPU 相比，从 GPU 调用时内核开销是否更小？

是否可以使用动态并行来提高以下算法的性能？如果是这样，您能否建议一个类似的动态并行用例来帮助我在自己的程序中实现它？

for (i = 0; i < NUM_ITERATIONS; i++)
{
    kernelGPU<<<gridSize, blkSize>>>(
        d_a,
        d_b,
        d_c,
        d_d,
        d_e,
        R,
        V,
        N
    );
}

score 1 · Accepted Answer

我实际上是通过将循环放在父内核中并使用 DP 来实现的，但性能变得更糟（慢了大约 50%）。

cuda - 使用动态并行优化算法

1 回答 1

Related

Reference