尝试使用nvvp
(或使用nvprof
)分析我的代码时,我得到了很多分析开销:
总时间为 98 毫秒,我在第一次内核启动时获得了 85 毫秒的“仪器”。
如何减少此分析开销或仅放大我感兴趣的部分?
背景
我在未选中“启用分析的情况下开始执行”的情况下运行它,并且我使用cudaProfilerStart
/限制了分析,cudaProfilerStop
如下所示:
/* --- generate data etc --- */
// Call the function once to warm up the FFT plan cache
applyConvolution( T, N, stride, plans, yData, phiW, fData, y_dwt );
gpuErrchk( cudaDeviceSynchronize() );
// Call it once for profiling
cudaProfilerStart();
applyConvolution( T, N, stride, plans, yData, phiW, fData, y_dwt );
gpuErrchk( cudaDeviceSynchronize() );
cudaProfilerStop();
applyConvolution()
我正在分析的功能在哪里。
我在带有 GTX 1080 的 Ubuntu 16.04 上使用 CUDA Toolkit 8.0。