考虑以下情况:
//thread 0 on device 0:
cudaMemcpyAsync(Dst0, Src0, ..., stream0);//stream0 is on Device 0;
...
//thread 1 on device 1:
cudaMemcpyAsync(Dst1, Src1, ..., stream1);//stream1 is on Device 1;
两个 memcpy 操作能否同时发生并获得双倍的主机设备带宽(只要主机内存带宽足够)?如果答案是肯定的,那么这种并发是否有上限?
我计划为单个计算节点中的许多(6-8)GPU 编写一些程序,因此这对性能非常关键。