我正在使用 cudaMemcpyPeerAsync() 执行从 gpu0 到 gpu1 的异步 memcpy。
cudaMemcpyAsync() 为流提供用于 gpu0 的选项,但不适用于 gpu1。我也可以以某种方式定义接收设备的流吗?
我正在使用 OpenMP 线程来管理每个设备(因此,它们位于不同的上下文中)。
Visual Profiler 显示发送设备的流,但对于接收设备,此 memcpy 仅显示在 MemCpy (PtoP) 中,而不显示在任何流中(甚至不在默认流中)
PS:我目前的实现工作正常。我只想重叠发送和接收通信。