2

我正在尝试使用霍夫变换检测二进制图像中的圆圈。NDrangekernel 中局部和全局工作大小的问题我不知道 global_work_size 放置维度过程图像的值所需的优化值,例如 512*512 local_work_size 当放置值 1 或 8 或 16 时它可以程序运行正常但是当更改时值为 32 或 64 编译正常,程序在执行时间上运行得更快,但没有输出累加器 in[]

图片大小 512*512
size_t szGlobalWorkSize[2]={img.cols,img.rows}; size_t szLocalWorkSize[2]={16,16};

     clEnqueueNDRangeKernel(clCommandQueue,hough_circle,2,NULL,szGlobalWorkSize,szLoc‌alWorkSize,0,NULL,&event);​ 

内核代码是:

 kernel void hough_circle(read_only image2d_t imageIn, global int* in,const int w_hough)
{
       sampler_t sampler=CLK_NORMALIZED_COORDS_FALSE | CLK_ADDRESS_CLAMP_TO_EDGE |         CLK_FILTER_NEAREST;
      int gid0 = get_global_id(0);
      int gid1 = get_global_id(1);
     uint4 pixel;
      pixel=read_imageui(imageIn,sampler,(int2)(gid0,gid1));
     if(pixel.x==255)
     {
   for(int r=90;r<110;r+=1)
        {
           for(int theta=0; theta<360;theta++)
              {
        x0=(int) round(gid0-r*sin_parameter[theta] );
        y0=(int) round(gid1-r*cos_parameter[theta] );
                if((x0>0) && (x0<get_global_size(0)) && (y0>0)&&(y0<get_global_size(1)))

                 atom_inc(&in[w_hough*y0+x0]);
               }
         }

     }

}

任何帮助选择全局和局部大小的最佳值

4

1 回答 1

1

两件事情:

  1. 您不能使 local_work_size 任意大。CL_DEVICE_MAX_WORK_ITEM_SIZES 的每个维度必须小于等于 clGetDeviceInfo,CL_DEVICE_MAX_WORK_GROUP_SIZE 的所有维度的乘积必须小于等于 clGetDeviceInfo。对于某些 GPU,这是 128,因此 16x16 对于某些硬件来说甚至太大了。32x32 不适用于大多数 GPU。

  2. 如果您指定 local_work_size,则 global_work_size必须是 local_work_size 的整数倍(如果您使用的是 OpenCL 1.x)。

于 2013-11-10T00:34:07.660 回答