cuda - 流 0（默认）和其他流的行为

Question

在 CUDA 中，流 0 与其他流有何关系？流 0（默认流）是否与上下文中的其他流同时执行？

考虑以下示例：

cudaMemcpy(Dst, Src, sizeof(float)*datasize, cudaMemcpyHostToDevice);//stream 0;

cudaStream_t stream1;

/...creating stream1.../

somekernel<<<blocks, threads, 0, stream1>>>(Dst);//stream 1;

在上面的代码中，编译器能否确保somekernel始终在完成后 cudaMemcpy启动或将somekernel同时执行cudaMemcpy？

score 4 · Accepted Answer

cudaMemcpycall 是（除特定情况外）同步调用。运行该代码的主机线程会阻塞，直到内存传输到主机。在调用返回之前，它无法继续启动内核cudaMemcpy，直到复制操作完成才会发生。

更一般地说，只要操作在该流中处于活动状态，默认流（0 或 null）就会隐式序列化 GPU 上的操作。如果在默认流中执行操作的同时创建流并将操作推送到其中，则这些流中的所有并发都将丢失，直到默认流空闲为止。

cuda - 流 0（默认）和其他流的行为

1 回答 1

Related

Reference