-1

我正在尝试调用两个内核,如下所示

for (t=0; t<=time_total; t++)
{    
      //kernel calls
      kernel1<<<noOfBlocks,noOfThreadsPerBlock>>>(** SOME PARAMETERS **);
      checkCudaError(cudaThreadSynchronize());

      kernel2<<<noOfBlocks,noOfThreadsPerBlock>>>(** SOME PARAMETERS **);
      checkCudaError(cudaThreadSynchronize());

}

第二个内核的结构是

var[index+0]=**SOME CALCULATION**
var[index+1]=**SOME CALCULATION**
var[index+2]=**SOME CALCULATION**

现在,当我执行此代码时, checkCudaError 不报告任何内容,并且执行代码并给出一些输出,但 Visual Studio 给出以下异常

First-chance exception at 0x7640c41f in **.exe: Microsoft C++ exception: cudaError_enum at memory location 0x0039f9c4..
First-chance exception at 0x7640c41f in **.exe: Microsoft C++ exception: cudaError_enum at memory location 0x0039f9c4..

当我检查 Nsight 时,它说内核 2 出现以下错误

CUDA_ERROR_LAUNCH_OUT_OF_RESOURCES

现在的问题是内核 2 中的 var 数组给出了一些正确的行,一些是其他行值的副本,一些是垃圾。

当我这样做时

var[index+0]=3
var[index+1]=3
var[index+2]=3

var 的所有值都设置为 3

4

1 回答 1

0

一些旁注:

  1. cudaThreadSynchronize()已弃用,取而代之的是cudaDeviceSynchronize().
  2. nsight 在第二次内核启动时报告错误,但您的错误检查代码没有,这让我相信您的错误检查代码已损坏。

现在,关于您的问题,资源不足通常是由于代码请求的寄存器过多(每个线程的寄存器数量过多乘以每个线程块请求的线程数。)尝试重新编译代码以指定 -Xptxas -v获得详细输出,然后重新编译再次使用-maxrregcount 20(或类似的东西)尝试解决此问题以进行测试。

如果这“解决”了您的问题,那么您可能需要考虑以下事项:

  1. 看看是否有一种方法可以重新排序或重组代码以减少注册压力
  2. 如果不是,则将您的maxrregcount值向上调整到大约允许您的代码根据您关心的启动配置(每个块的线程数)编译和运行的最高值。您可能还希望在此设置的不同级别对代码进行基准测试,因为它会影响占用率。通常,如果您将其设置为将编译和运行的最高值,那么您将在执行时将自己限制为每个 SM 一个线程块。这可能没问题,或者可能有一个更好的较低设置,允许每个 SM 驻留两个线程块,并且可能具有更高的性能。只有对代码进行基准测试才能说明问题。
于 2013-07-19T12:47:28.430 回答