我正在研究CUDA编程结构,学习后的感受是;创建块和线程后,每个块都分配给每个流式多处理器(例如,我使用的 GForce 560Ti 有 14 个流式多处理器,因此一次可以将 14 个块分配给所有流式多处理器)。但是当我浏览一些在线材料时,比如这个:
http://moss.csc.ncsu.edu/~mueller/cluster/nvidia/GPU+CUDA.pdf
其中已经提到可以在一个多处理器上同时运行多个块。我基本上对流式多处理器上的线程和块的执行感到非常困惑。我知道块的分配和线程的执行是绝对任意的,但我想块和线程的映射实际上是如何发生的,以便可以发生并发执行。