cuda - cudaMemcpy2D 将值设置为 0

Question

我正在尝试使用 cudaMallocPitch 和 cudaMemcpy2D 将二维数组从主机复制到设备，但我遇到了一个问题，它似乎将我的值设置为 0。

我将在浏览器中编写代码的基础知识。我知道我从内核打印的值不是 0。有什么想法吗？

__global__ void kernel(float **d_array) {
    printf("%f", d_array[0][0]);
}

void kernelWrapper(int rows, int cols, float **array) {
    float **d_array;
    size_t pitch;
    cudaMallocPitch((void**) &d_array, &pitch, rows*sizeof(float), cols);
    cudaMemcpy2D(d_array, pitch, array, rows*sizeof(float), rows*sizeof(float), cols, cudaMemcpyHostToDevice);
    kernel<<<1,1>>>(d_array);
}

出于某种原因，内核一直打印 0.0000。我知道第一个元素不是 0，因为我测试了打印主机数组的第一个元素。怎么了？

编辑：我也尝试了这段代码，但出现了无效的指针错误。

cudaMalloc(d_array, rows*sizeof(float*));
for (int i = 0; i < rows; i++) {
    cudaMalloc((void**) &d_array[i], cols*sizeof(float));
}
cudaMemcpy(d_array, array, rows*sizeof(float*), cudaMemcpyHostToDevice);

score 3 · Accepted Answer

尽管它的名字，cudaMemcpy2D不会将双下标 C 主机数组 ( **) 复制到双下标 ( **) 设备数组。您会注意到，它希望将单指针 ( *) 传递给它，而不是双指针 ( **)。 cudaMemcpy2D用于复制平面的跨步数组，而不是二维数组。跨步访问的概念有两个固有的维度，这就是名称的来源。

通常，尝试将 2D 数组从主机复制到设备比仅调用单个 API 更复杂。建议您展平您的数组，以便您可以使用单个指针 ( *) 引用它，然后 API 调用将起作用。有很多在 SO 上正确使用 cudaMemcpy2D 的示例，只需搜索它们即可。

此外，当您在使用 CUDA 代码时遇到困难时，您应该对所有 cuda API 调用和内核调用进行cuda 错误检查。

如果您真的想直接复制二维数组，请查看此问题/答案以获取有效示例。这不是微不足道的。

cuda - cudaMemcpy2D 将值设置为 0

1 回答 1

Related

Reference