我正在尝试编写一个小型演示程序,该程序有两个 cuda 流正在进行,并且受事件控制,相互等待。到目前为止,这个程序看起来像这样:
// event.cu
#include <iostream>
#include <cstdio>
#include <cuda_runtime.h>
#include <cuda.h>
using namespace std;
__global__ void k_A1() { printf("\tHi! I am Kernel A1.\n"); }
__global__ void k_B1() { printf("\tHi! I am Kernel B1.\n"); }
__global__ void k_A2() { printf("\tHi! I am Kernel A2.\n"); }
__global__ void k_B2() { printf("\tHi! I am Kernel B2.\n"); }
int main()
{
cudaStream_t streamA, streamB;
cudaEvent_t halfA, halfB;
cudaStreamCreate(&streamA);
cudaStreamCreate(&streamB);
cudaEventCreate(&halfA);
cudaEventCreate(&halfB);
cout << "Here is the plan:" << endl <<
"Stream A: A1, launch 'HalfA', wait for 'HalfB', A2." << endl <<
"Stream B: Wait for 'HalfA', B1, launch 'HalfB', B2." << endl <<
"I would expect: A1,B1, (A2 and B2 running concurrently)." << endl;
k_A1<<<1,1,0,streamA>>>(); // A1!
cudaEventRecord(halfA,streamA); // StreamA triggers halfA!
cudaStreamWaitEvent(streamA,halfB,0); // StreamA waits for halfB.
k_A2<<<1,1,0,streamA>>>(); // A2!
cudaStreamWaitEvent(streamB,halfA,0); // StreamB waits, for halfA.
k_B1<<<1,1,0,streamB>>>(); // B1!
cudaEventRecord(halfB,streamB); // StreamB triggers halfB!
k_B2<<<1,1,0,streamB>>>(); // B2!
cudaEventDestroy(halfB);
cudaEventDestroy(halfA);
cudaStreamDestroy(streamB);
cudaStreamDestroy(streamA);
cout << "All has been started. Synchronize!" << endl;
cudaDeviceSynchronize();
return 0;
}
我对 CUDA 流的掌握如下: 流是一种可以添加任务的列表。这些任务是按顺序处理的。所以在我的程序中,我可以放心 streamA 会按顺序
- 调用内核 k_A1
- 触发半A
- 等待有人触发halfB
- 调用内核 k_A2
和streamB会
- 等待有人触发halfA
- 调用内核 k_B1
- 触发半B
- 调用内核 k_B2
通常,两个流可能彼此异步运行。但是,我想阻止 streamB 直到 A1 完成,然后阻止 streamA 直到 B1 完成。
这似乎没有那么简单。在我的带有 Tesla M2090 (CC 2.0) 的 Ubuntu 上,输出
nvcc -arch=sm_20 event.cu && ./a.out
是
Here is the plan:
Stream A: A1, launch 'HalfA', wait for 'HalfB', A2.
Stream B: Wait for 'HalfA', B1, launch 'HalfB', B2.
I would expect: A1,B1, (A2 and B2 running concurrently).
All has been started. Synchronize!
Hi! I am Kernel A1.
Hi! I am Kernel A2.
Hi! I am Kernel B1.
Hi! I am Kernel B2.
我真的希望 B1 在 cudaEventRecord(halfB,streamB) 之前完成。尽管如此,流 A 显然不会等待 B1 的完成,因此也不会等待 halfB 的记录。
更重要的是:如果我完全删除 cudaEventRecord 命令,我希望程序锁定 cudaStreamWait 命令。但它不会产生相同的输出。我在这里俯瞰什么?