0

我想知道在 openCL 中处理一堆 2D 数组的最佳方法是什么。我的目标平台是 GPGPU。根据我的问题,我认为最好让每个工作组管理一个阵列。

至于将数组传递给每个工作组,我很想在 clEnqueueNDRangeKernel 中设置 global_worksize=numArrays*N*M 和 local_worksize=N*M。然后我会像处理 3D 数组一样处理数组:

(numArrays*localSize*wgroupID)+localSize*x+y

这有意义吗?我一直在尝试搜索互联网以恢复一些最佳实践或示例,但我很难做到这一点。

谢谢!

4

0 回答 0