optimization - 如何提高 OpenCL 内核读取 __global char* 数据的效率？

翻译自：https://stackoverflow.com/questions/33933018 2015-11-26T07:41:52.113

156 次

两幅图像之间的运动补偿（3840*2160），块大小 16
kernel 除法 3840 * 135(135=2160/16)，group size 64*1 or 128*1 (基本没区别)

现在我的内核确实访问了全局 char 数据，但imagepos = src + mv.xy没有对齐，所以必须一个一个地读取 char。我认为这里存在延迟，CodeXL 也表明 GPR 没有限制。所以我需要找到一种方法来加快数据读取速度。我也想知道如何使用本地内存，但数据只需要一次。任何建议将不胜感激。

optimization - 如何提高 OpenCL 内核读取 __global char* 数据的效率？

0 回答 0

Related

Reference