concurrency - 流如何在 CUDA 中提供并发执行？

Question

在 CUDA 文档中，提到如果我们像这样使用 2 个流（stream0 和 stream1）：我们在 stream0 中复制数据，然后在 stream0 中启动第一个内核，然后在 stream0 中从设备中恢复数据，然后在 stream1 中进行相同的操作，这种方式，如“CUDA by example 2010”一书中所述，不提供并发执行，但在“并发内核示例”中使用此方法并提供并发执行。那么你能帮我理解这两个例子之间的区别吗？

score 2 · Accepted Answer

我只是在扩展埃里克的答案。

在 CUDA C Programming Guide 中，报告了使用2流的示例，比如stream0and stream1，来执行以下操作

案例一

memcpyHostToDevice --- stream0
kernel execution   --- stream0
memcpyDeviceToHost --- stream0

memcpyHostToDevice --- stream1
kernel execution   --- stream1
memcpyDeviceToHost --- stream1

换句话说，所有的操作stream0都是先发出的，然后是关于的stream1。在“CUDA By Example”一书的第 10.5 节中报告了相同的示例，但“显然”得出结论（与指南“明显”矛盾）以这种方式无法实现并发。

在“CUDA By Example”的第 10.6 节中，提出了以下流的替代使用

案例二

memcpyHostToDevice --- stream0
memcpyHostToDevice --- stream1
kernel execution   --- stream0
kernel execution   --- stream1
memcpyDeviceToHost --- stream0
memcpyDeviceToHost --- stream1

换句话说，和的内存复制操作和内核执行stream0现在stream1是交错的。这本书指出了如何通过这种解决方案实现并发。

实际上，“CUDA By Example”一书和 CUDA C 编程指南之间没有矛盾，因为书中的讨论是针对 GTX 285 卡进行的，而正如 Eric 和引用的博客文章如何在 CUDA C/C++ 中重叠数据传输，由于依赖关系和可用的复制引擎，在不同的架构上可以不同地实现并发。

例如，该博客考虑了两张卡：C1060 和 C2050。前者有一个内核引擎和一个复制引擎，一次只能发出一个内存事务（H2D 或 D2H）。后者有一个内核引擎和两个复制引擎，可以一次同时发出两个内存事务（H2D 和 D2H）。只有一个复制引擎的 C1060 会发生以下情况

案例 A - C1060 - 没有实现并发

Stream       Kernel engine         Copy engine             Comment

stream0 ----                       memcpyHostToDevice ----
stream0 ---- kernel execution ----                         Depends on previous memcpy
stream0 ----                       memcpyDeviceToHost ---- Depends on previous kernel
stream1 ----                       memcpyHostToDevice ---- 
stream1 ---- kernel execution ----                         Depends on previous memcpy
stream1 ----                       memcpyDeviceToHost ---- Depends on previous kernel

案例 B - C1060 - 实现并发

Stream         Kernel engine           Copy engine               Comment

stream0   ----                         memcpyHostToDevice 0 ----
stream0/1 ---- Kernel execution 0 ---- memcpyHostToDevice 1 ----  
stream0/1 ---- Kernel execution 1 ---- memcpyDeviceToHost 0 ---- 
stream1   ----                         memcpyDeviceToHost 1 ----

关于 C2050 并考虑3流的情况，在 CASE A 中现在实现了并发，与 C1060 相反。

案例 A - C2050 - 实现并发

Stream           Kernel engine           Copy engine H2D           Copy engine D2H

stream0     ----                         memcpyHostToDevice 0 ----
stream0/1   ---- kernel execution 0 ---- memcpyHostToDevice 1 ----                              
stream0/1/2 ---- kernel execution 1 ---- memcpyHostToDevice 2 ---- memcpyDeviceToHost 0
stream0/1/2 ---- kernel execution 2 ----                           memcpyDeviceToHost 1
stream2     ----                                                   memcpyDeviceToHost 2

score 2 · Accepted Answer

重叠的数据传输取决于许多因素，包括计算能力版本和编码风格。该博客可能会提供更多信息。

https://developer.nvidia.com/content/how-overlap-data-transfers-cuda-cc

concurrency - 流如何在 CUDA 中提供并发执行？

2 回答 2

Related

Reference