1

我在 GPU 上运行图像过滤器,我需要测量程序的每个部分进行比较所需的时间。首先我尝试了 time.h 库,但它总是返回零。然后我读了这篇文章

并在调用内核之前和之后在我的程序中使用了相同的代码,但它仍然返回零。谁能告诉我可能是什么问题?

这是我的代码:

cudaEvent_t start,stop;
cudaEventCreate(&start);
cudaEventCreate(&stop);
float Elapsed=0,Cycle;
while(count)
{
    cudaEventRecord(start,0);
    ImgFilter<<<dimGrid,dimBlock>>>...
    cudaEventRecord(stop,0);
    cudaElapsedTime(&Cycle,statr,stop);
    Elapsed += Cycle;
}
printf("Time = %f",Elapsed);

我也尝试打印“循环”,但它总是为零。

4

1 回答 1

3

你错过了调用cudaEventSynchronize函数

cudaEvent_t start,stop;
cudaEventCreate(&start);
cudaEventCreate(&stop);
float Elapsed=0,Cycle;
while(count)
{
    cudaEventRecord(start,0);
    ImgFilter<<<dimGrid,dimBlock>>>...
    cudaEventRecord(stop,0);
    cudaEventSynchronize(stop);
    cudaElapsedTime(&Cycle,statr,stop);
    Elapsed += Cycle;
}
printf("Time = %f",Elapsed);

请注意,该设备函数在所有 CUDA 线程完成执行之前返回,您需要cudaThreadSynchronize在内核调用之后使用。

于 2012-05-31T06:38:26.617 回答