谁能告诉我gfor结构是如何分配CUDA线程的?众所周知,在 Arrayfire 中,我们可以使用 gfor 进行并行计算。但是,CUDA的线程是有限的,所以我想知道,如何改进我的Arrayfire代码,我是否应该根据GPU硬件架构重新设计gfor结构。
谁能告诉我gfor结构是如何分配CUDA线程的?众所周知,在 Arrayfire 中,我们可以使用 gfor 进行并行计算。但是,CUDA的线程是有限的,所以我想知道,如何改进我的Arrayfire代码,我是否应该根据GPU硬件架构重新设计gfor结构。