-2

最初的问题是启动更多线程,可能像这样:

someKernel<<<1 , 1025>>> ( ... );

并且没有检测到错误,因为我不知道如何检测内核调用错误。这在这个问题的 talonmies 回答中得到了很好的解释:

使用 CUDA 运行时 API 检查错误的规范方法是什么?

为了简洁起见,我没有修改我提供的代码,而是编写了自己的代码:

#include "cuda_runtime.h"
#include "device_launch_parameters.h"

#include <stdio.h>

#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t cudaError, char *file, int line, bool abort=true)
{
   if (cudaError != cudaSuccess) 
   {
      fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(cudaError), file, line);
   }
}

__global__ void addKernel(const int *dev_a, const int *dev_b, int *dev_c)
{
    int i = threadIdx.x;
    if ( i < 5 )
        dev_c[i] = dev_a[i] + dev_b[i];
}

int main()
{
    const int arraySize = 5;
    const int a[arraySize] = { 1, 2, 3, 4, 5 };
    const int b[arraySize] = { 10, 20, 30, 40, 50 };
    int c[arraySize] = { 0 };

    int *dev_a(nullptr), *dev_b(nullptr), *dev_c(nullptr);

    gpuErrchk( cudaMalloc((void**)&dev_a, arraySize * sizeof(int)) );
    gpuErrchk( cudaMalloc((void**)&dev_b, arraySize * sizeof(int)) );
    gpuErrchk( cudaMalloc((void**)&dev_c, arraySize * sizeof(int)) );

    gpuErrchk( cudaMemcpy(dev_a, a, arraySize * sizeof(int), cudaMemcpyHostToDevice) );
    gpuErrchk( cudaMemcpy(dev_b, b, arraySize * sizeof(int), cudaMemcpyHostToDevice) );

    const int testMax1D = 1025; 
    dim3 testMax2D ( 32, 33 );

    addKernel<<<1, testMax2D>>> ( dev_a , dev_b, dev_c );
    gpuErrchk( cudaPeekAtLastError() );
    gpuErrchk( cudaDeviceSynchronize() );

    gpuErrchk(  cudaMemcpy( c, dev_c, arraySize * sizeof(int), cudaMemcpyDeviceToHost) );

    printf("{1,2,3,4,5} + {10,20,30,40,50} = {%d,%d,%d,%d,%d}\n",
        c[0], c[1], c[2], c[3], c[4]);

    cudaFree(dev_a);
    cudaFree(dev_b);
    cudaFree(dev_c);

    return 0;
}

我现在得到正确的错误报告。感谢您的耐心等待。

我不明白gpuAssert函数中的这个调用,所以我省略了它:

if (abort) exit(code);

退出是自定义的书面功能还是我错过的东西?

4

1 回答 1

3

内核启动可能会出现两类错误,需要按照特定顺序在单独的步骤中检查它们。

第一类错误是在进行内核调用时和在内核实际在设备上启动之前同步报告的,即这些是“启动前”错误。这些错误通常涉及请求比可用资源更多的特定资源(例如,共享内存过多、线程过多)。通过在内核调用后立即调用 cudaGetLastError() 来检查这些。

第二类错误是在内核在设备上启动后的某个时间点发生的错误(例如内存访问冲突、看门狗定时器超时)。这些是“发布后”错误。内核调用后一段时间报告它们的原因是内核启动异步发生的自然结果。下次有机会报告它们,通常是下一次同步 API 调用。通过调用 cudaDeviceSynchronize() 并检查其状态返回来检查这些。

发布的代码缺少对第一类错误的检查。

于 2013-04-24T05:12:37.590 回答