asynchronous - 异步数据传输 CUDA

Question

考虑下面的 cuda 代码：

CudaMemCpyAsync(H2d, data1...., StreamA);
KernelB<<<..., StreamB>>>(data1,...);
CudaMemCpyAsync(D2H, output using data1, ...., StreamA);

“CudaMemCpyAsync(D2H ....., StreamA);”什么时候出现在代码中开始？它是否在 KernelB 执行结束后开始？我是否替换“CudaMemCpyAsync（D2H .....，StreamA）；” 使用“CudaMemCpy（D2H .....，StreamA）；” 如果我必须将 KernelB 的输出复制回主机？

此外，在异步数据传输中是否绝对需要固定内存使用？

提前致谢。

score 3 · Accepted Answer

用户创建的 CUDA 流相对于彼此和相对于主机是异步的。发布给同一 CUDA 流的任务被序列化。因此，在您的情况下，cudaMemCpyAsync(D2H, output using data1, ...., StreamA);将等待先前的内存副本完成。但是不能保证当这个内存复制启动时，内核会完成它的执行。因为StreamA和StreamB是异步的。

此外，主机不会等待这些流完成执行。

如果您希望主机等待流，您可以使用cudaDeviceSynchronize或cudaStreamSynchronize。

如果不使用固定内存，内存副本将不会与内核执行重叠。

asynchronous - 异步数据传输 CUDA

1 回答 1

Related

Reference