5

我是 CUDA 新手,对cudaEvent. 我现在有一个代码示例,如下所示:

float elapsedTime; 
cudaEvent_t start, stop;
CUDA_ERR_CHECK(cudaEventCreate(&start));
CUDA_ERR_CHECK(cudaEventCreate(&stop));

CUDA_ERR_CHECK(cudaEventRecord(start));

// Kernel functions go here ...

CUDA_ERR_CHECK(cudaEventRecord(stop));
CUDA_ERR_CHECK(cudaEventSynchronize(stop));
CUDA_ERR_CHECK(cudaEventElapsedTime(&elapsedTime, start, stop));

CUDA_ERR_CHECK(cudaDeviceSynchronize());

关于这段代码,我有两个问题:

1.最后一个cudaDeviceSynchronize有必要吗?因为根据 的文档cudaEventSynchronize,它的功能是等待直到最近一次调用之前的所有设备工作完成cudaEventRecord()。因此,鉴于我们已经调用了cudaEventSynchronize(stop),我们还需要cudaDeviceSynchronize再次调用吗?

2.上面的代码和下面的实现有什么不同:

#include <chrono>

auto tic = std::chrono::system_clock::now();

// Kernel functions go here ...

CUDA_ERR_CHECK(cudaDeviceSynchronize());
auto toc = std::chrono::system_clock:now();

float elapsedTime = std::chrono::duration_cast < std::chrono::milliseconds > (toc - tic).count() * 1.0;
4

1 回答 1

3

只是为了充实评论,以便这个问题有答案并且会从未回答的队列中掉下来:

  1. 不,不需要cudaDeviceSynchronize()调用。事实上,在多个流中使用异步 API 调用的许多情况下,使用全局范围同步调用是不正确的,因为您将破坏事件计时器的功能,这些功能允许在流中准确计时操作。

  2. 它们完全不同。一种是使用主机端时序,另一种是使用设备驱动程序时序。在最简单的情况下,两者测量的时间是可比较的。但是,在主机端计时版本中,如果您将占用大量时间的主机 CPU 操作放在主机计时部分,则您的时间测量将无法反映 GPU 操作所用时间少于主机时所使用的 GPU 时间操作。

于 2017-11-08T10:28:30.423 回答