CUDA 允许使用cuMemcpy异步函数和流重叠计算和数据传输。但是 NPP(Performance Primitives)有可能吗?
一点背景。我正在尝试使用 NPP 图像调整大小函数来利用 GPU(在我们的例子中是nppiResize_8u_C3R)。我正在使用固定内存并使用cuMemcpy2DAsync_v2和每个线程流成功地将数据传输到 GPU 。问题是nppiResize_8u_C3R和所有其他计算函数不接受流。
当我运行 Nvidia Visual Profiler 时,我看到了下一个:
- 固定内存让我可以更快地传输数据 - ~6.524 GB/s。
- memcpy 与计算并行执行的时间百分比为 0%。