我有一个已经并行化的 CUDA 内核,它执行一些需要频繁插值的任务。
所以有一个内核
__global__ void complexStuff(...)
它调用一次或多次此插值设备函数:
__device__ void interpolate(...)
插值算法在三个维度上连续进行 WENO 插值。这是一个高度可并行化的任务,我迫切希望并行化!
很明显,内核complexStuff()
可以很容易地通过使用<<<...>>>
语法从主机代码调用它来实现并行化。complexStuff()
已经并行化也很重要。
但是我不清楚如何从 CUDA 设备函数内部并行化某些东西/创建新线程......这甚至可能吗?有人知道吗?