我的 pyopencl 内核程序以 (512,512) 的全局大小启动,我假设它将运行 512x512=262,144 次。我想在我的 512x512 图像中找到函数的最小值,但我不想将 262,144 个浮点数返回到我的 CPU 来计算最小值。我想运行另一个内核(可能在队列中等待)来找到所有 262,144 像素的最小值,然后将那个浮点数发送到 CPU。我认为这会更快。我的等待内核的全局大小应该是 (1,1), 吗?我希望在调用下一个内核之前,我使用 mf.COPY_HOST_PTR 创建的 262,144 大浮点缓冲区不会越过 GPU/CPU 总线。
谢谢蒂姆