在开始优化之前,我试图弄清楚配置文件结果的含义。我对 CUDA 和一般分析非常陌生,我对结果感到困惑。
具体来说,我想知道在看似未被占用的计算块中发生了什么。当我从上到下查看 CPU 和 GPU 时,在大部分代码中似乎没有发生任何事情。这些看起来像没有任何内容的列,也没有Thread1
任何内容GeForce
。这是正常的吗?这里发生了什么事?
运行是在多核机器上使用 nvprof 在无负载的情况下完成的。-arch=sm_20 -m32 -g -G
GPU 代码是为 CUDA 5编译的。