cuda - OpenCl 相当于在 CUDA 中查找连续索引

Question

在 CUDA 中，为了覆盖多个块，从而增加数组的索引范围，我们执行以下操作：

主机端代码：

 dim3 dimgrid(9,1)// total 9 blocks will be launched    
 dim3 dimBlock(16,1)// each block is having 16 threads  // total no. of threads in  
                   //   the grid is thus 16 x9= 144.

设备端代码

 ...
 ...     
 idx=blockIdx.x*blockDim.x+threadIdx.x;// idx will range from 0 to 143 
 a[idx]=a[idx]*a[idx];
 ...
 ...

OpenCL 中实现上述情况的等价物是什么？

score 4 · Accepted Answer

在主机上，当您使用将内核排入队列时clEnqueueNDRangeKernel，您必须指定全局和本地工作大小。例如：

size_t global_work_size[1] = { 144 }; // 16 * 9 == 144
size_t local_work_size[1] = { 16 };
clEnqueueNDRangeKernel(cmd_queue, kernel, 1, NULL,
                       global_work_size, local_work_size,
                       0, NULL, NULL);

在您的内核中，使用：

size_t get_global_size(uint dim);
size_t get_global_id(uint dim);
size_t get_local_size(uint dim);
size_t get_local_id(uint dim);

分别检索全局和局部工作大小和索引，其中dim是0for x、1fory和2for z。

因此，相当于您的idx遗嘱size_t idx = get_global_id(0);

请参阅OpenCL 参考页。

score 1 · Accepted Answer

CUDA 和 OpenCL 之间的等价关系是：

blockIdx.x*blockDim.x+threadIdx.x = get_global_id(0)

LocalSize = blockDim.x

GlobalSize = blockDim.x * gridDim.x

cuda - OpenCl 相当于在 CUDA 中查找连续索引

2 回答 2

Related

Reference