cuda - 有什么技巧可以避免在长内核期间显示延迟？

Question

亲爱的 CUDA 用户，我正在转发来自 nvidia 板的一个问题：我目前正在 GPU 上进行图像处理，并且我有一个内核在运行大图像时需要大约 500 到 700 毫秒。它曾经在较小的图像上完美地工作，但现在的问题是整个显示器甚至鼠标光标都变得迟钝（OS = win7）

我的想法是将内核拆分为 4 或 8 次内核启动，希望驱动程序可以更频繁地刷新（在每次内核启动之间）。不幸的是，它根本没有帮助，那么我还能尝试避免这种冻结显示效果吗？有人建议我在每个内核之间添加一个cudaStreamQuery(0)调用以避免被驱动程序打包。

注意：我准备用性能换取流畅度！

score 4 · Accepted Answer

GPU（尚未）设计为在内核启动之间进行上下文切换，这就是为什么长时间运行的内核会导致显示滞后的原因。将内核分成多个启动可能会在 Windows Vista/Windows 7 以外的平台上有所帮助。在这些平台上，每次 CUDA 驱动程序想要提交时，Windows 显示驱动程序模型都需要昂贵的用户->内核转换（“内核 thunk”）工作到GPU。

为了分摊内核 thunk 的成本，CUDA 驱动程序将 GPU 命令排队并分批提交。驱动程序使用启发式方法来权衡内核 thunk 对性能的影响与不立即提交工作的延迟增加。您的多内核解决方案发生的情况是驱动程序将您的内核或一系列内核一次全部提交给 GPU。

您是否尝试过 cudaStreamQuery(0) 建议？可能有帮助的原因是它强制CUDA 驱动程序向 GPU 提交工作，即使只有很少的工作待处理。

cuda - 有什么技巧可以避免在长内核期间显示延迟？

1 回答 1

Related

Reference