两幅图像之间的运动补偿(3840*2160),块大小 16
kernel 除法 3840 * 135(135=2160/16),group size 64*1 or 128*1 (基本没区别)
现在我的内核确实访问了全局 char 数据,但imagepos = src + mv.xy
没有对齐,所以必须一个一个地读取 char。我认为这里存在延迟,CodeXL 也表明 GPR 没有限制。所以我需要找到一种方法来加快数据读取速度。我也想知道如何使用本地内存,但数据只需要一次。任何建议将不胜感激。