如果 CUDA 内核调用 __device__ 函数,在进入或退出 __device__ 函数的块中的所有线程之间是否存在任何隐式同步?
如果不是,那么这意味着块中的某些线程可能在块中的其他线程甚至进入它之前退出 __device__ 函数(在没有任何显式同步的情况下)?
任何指向相关信息/参考的指针将不胜感激。
如果 CUDA 内核调用 __device__ 函数,在进入或退出 __device__ 函数的块中的所有线程之间是否存在任何隐式同步?
如果不是,那么这意味着块中的某些线程可能在块中的其他线程甚至进入它之前退出 __device__ 函数(在没有任何显式同步的情况下)?
任何指向相关信息/参考的指针将不胜感激。