我想在每个维度上发送一个src
大小为 3D 的数组,将其size
展平为大小为 1D 的数组length = size * size * size
,发送到内核中,计算结果并将其存储在dst
. 但是,最后,dst
不正确地包含所有 0。这是我的代码:
int size = 256;
int length = size * size * size;
int bytes = length * sizeof(float);
// Allocate source and destination arrays on the host and initialize source array
float *src, *dst;
cudaMallocHost(&src, bytes);
cudaMallocHost(&dst, bytes);
for (int i = 0; i < length; i++) {
src[i] = i;
}
// Allocate source and destination arrays on the device
struct cudaPitchedPtr srcGPU, dstGPU;
struct cudaExtent extent = make_cudaExtent(size*sizeof(float), size, size);
cudaMalloc3D(&srcGPU, extent);
cudaMalloc3D(&dstGPU, extent);
// Copy to the device, execute kernel, and copy back to the host
cudaMemcpy(srcGPU.ptr, src, bytes, cudaMemcpyHostToDevice);
myKernel<<<numBlocks, blockSize>>>((float *)srcGPU.ptr, (float *)dstGPU.ptr);
cudaMemcpy(dst, dstGPU.ptr, bytes, cudaMemcpyDeviceToHost);
为了清楚起见,我省略了对cudaMallocHost()
,cudaMalloc()
的错误检查cudaMemcpy()
。在任何情况下,此代码都不会触发错误。
cudaMalloc3D()
with的正确用法是cudaMemcpy()
什么?
如果我也应该为内核发布一个最小的测试用例,或者问题是否可以在上面的代码中找到,请告诉我。