我正在尝试使用与 GPU 计算重叠的异步内存传输来提高代码的性能。
以前我有一个代码,我在其中创建了一个 FFT 计划,然后多次使用它。在这种情况下,创建 CUDA FFT 计划所花费的时间可以忽略不计,尽管根据之前的这篇文章,它可能非常重要。
现在我转向流,我正在做的是“多次”创建“相同”计划,然后设置 CUDA FFT 流。根据你们中的一些人在另一篇文章中给出的答案,这是浪费。但是,有没有其他方法可以做到这一点?
注意:我正在实时获取数据,因此启动“批量”CUDA FFT 是不可能的。我正在做的是创建并启动一个新的 CUDA 流作为完整脉冲传输的结果。
注意 2:我也在考虑使用“CUDA Streams/FFT 计划”的“池”,但我认为这不是一个优雅、明智的解决方案,有什么想法吗?
在分配 CUDA 流之前,是否有其他方法可以“复制”“现有的”fft 计划?
谢谢大家!/gals?希望在圣何塞见到你们中的一些人。=)
奥马尔