亲爱的 CUDA 用户,我正在转发来自 nvidia 板的一个问题:我目前正在 GPU 上进行图像处理,并且我有一个内核在运行大图像时需要大约 500 到 700 毫秒。它曾经在较小的图像上完美地工作,但现在的问题是整个显示器甚至鼠标光标都变得迟钝(OS = win7)
我的想法是将内核拆分为 4 或 8 次内核启动,希望驱动程序可以更频繁地刷新(在每次内核启动之间)。不幸的是,它根本没有帮助,那么我还能尝试避免这种冻结显示效果吗?有人建议我在每个内核之间添加一个cudaStreamQuery(0)
调用以避免被驱动程序打包。
注意:我准备用性能换取流畅度!