1

我使用一个函数来计算三个向量的向量点,并使用一个 reduce 来使其更快。但是,我总是遇到这样的错误:

CUDA error at kernel.cu:120 code=30(cudaErrorUnknown) "cudaMemcpy(partia
l_c, dev_partial_c,sizeofblock,cudaMemcpyDeviceToHost )"

我不知道为什么,因为代码看起来很正常。分配函数没有返回错误。有什么可能的解决方案吗?十分感谢。

double vector_dot(double* d_A,double* d_B,double *d_C,int numElements)
{
    int size = sizeof(double) * numElements;
    int c_size = sizeof(char) * numElements;
    double *d_D=NULL;
    checkCudaErrors(cudaMalloc((void**)&d_D,size)); 
    // Launch the Vector Add CUDA Kernel
    int threadsPerBlock = 256;
    int blocksPerGrid =(numElements + threadsPerBlock - 1) / threadsPerBlock;
    vectorMPL<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_D, numElements);
    double *partial_c;
    double*dev_partial_c;
    int sizeofblock=blocksPerGrid*sizeof(double);
    partial_c = (double*)malloc(sizeofblock);
    checkCudaErrors( cudaMalloc( (void**)&dev_partial_c,sizeofblock )) ;
    vector_dot_h<<<blocksPerGrid, threadsPerBlock>>>(d_D, d_C, dev_partial_c, numElements);

    double sum = 0;
    checkCudaErrors(cudaMemcpy(partial_c,dev_partial_c,sizeofblock,cudaMemcpyDeviceToHost));

    for (int i=0; i<blocksPerGrid; i++) {
        sum += partial_c[i];
    }

    checkCudaErrors(cudaFree(d_D));
    checkCudaErrors(cudaFree(dev_partial_c));  
    free(partial_c);
    // Reset the device and exit
    checkCudaErrors(cudaDeviceReset());
    return sum;
}

如果我删除它,我会在 cudafree 调用中收到未知错误。似乎所有的 cuda API 调用都无法完成。我想知道为什么?什么是未知的cuda错误?原因是什么?

4

1 回答 1

3

两者的文档都包含以下注释:cudaMemcpycudaFree

请注意,此函数还可能从以前的异步启动返回错误代码。

IE。该错误没有发生在cudaMemcpycudaFree中,而是发生在之前的内核启动或执行期间。如果您遵循此建议并将代码修改为以下内容:

vectorMPL<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_D, numElements);
checkCudaErrors(cudaPeekAtLastError());
checkCudaErrors(cudaDeviceSynchronize());

应该会发现cudaDeviceSynchronize()调用报错了,说明内核执行时出错了。错误的根本原因很可能是内存访问越界vector_dot_h,但由于您没有为相关内核调用提供代码或执行参数,因此无法为您提供更准确的诊断。CUDA 工具包附带一个名为的实用程序cuda-memcheck,您可以使用它来获取有关正在运行的内核中非法内存访问模式的更多信息。我建议您尝试在此代码上使用它。

于 2013-10-04T05:31:23.033 回答