cuda - 如何使用 make_cudaExtent 正确定义 cudaExtent？

Question

我想在 CUDA 中有一个 3d 浮点数组，这是我的代码：

#define  SIZE_X 128 //numbers in elements
#define  SIZE_Y 128
#define  SIZE_Z 128
typedef float  VolumeType;
cudaExtent volumeSize = make_cudaExtent(SIZE_X, SIZE_Y, SIZE_Z); //The first argument should be SIZE_X*sizeof(VolumeType)??

float *d_volumeMem;
cutilSafeCall(cudaMalloc((void**)&d_volumeMem, SIZE_X*SIZE_Y*SIZE_Z*sizeof(float)));

.....//assign value to d_volumeMem in GPU

cudaArray *d_volumeArray = 0;
cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc<VolumeType>();
cutilSafeCall( cudaMalloc3DArray(&d_volumeArray, &channelDesc, volumeSize) ); 
cudaMemcpy3DParms copyParams = {0};
copyParams.srcPtr = make_cudaPitchedPtr((void*)d_volumeMem, SIZE_X*sizeof(VolumeType), SIZE_X, SIZE_Y); //
copyParams.dstArray = d_volumeArray;
copyParams.extent = volumeSize;
copyParams.kin = cudaMemcpyDeviceToDevice;
cutilSafeCall( cudaMemcpy3D(&copyParams) );

实际上，我的程序运行良好。但我不确定结果是否正确。这是我的问题，在 CUDA liberay 中，它说 make_cudaExtent 的第一个参数是“字节宽度”，另外两个是元素的高度和深度。所以我认为在我上面的代码中，第五行应该是

cudaExtent volumeSize = make_cudaExtent(SIZE_X*sizeof(VolumeType), SIZE_Y, SIZE_Z);

但是这样一来，cutilSafeCall(cudaMemcpy3D(©Params));中就会出现错误“invalid argument”。为什么？

另一个难题是 strcut cudaExtent，正如 CUDA 库所述，它的组件宽度代表“引用数组内存时的元素宽度，引用线性内存时的字节数”。所以我认为在我的代码中，当我引用 volumeSize.width 时，它应该是元素中的数字。但是，如果我使用

 cudaExtent volumeSize = make_cudaExtent(SIZE_X*sizeof(VolumeType), SIZE_Y, SIZE_Z);

volumeSize.width 将为 SIZE_X*sizeof(VolumeType)(128*4)，即字节数而不是元素数。

在许多 CUDA SDK 中，他们使用 char 作为 VolumeType，所以他们只是使用 SIZE_X 作为 make_cudaExtent 中的第一个参数。但是我的是浮动的，所以，如果我需要使用它来创建 3D 数组，任何人都可以告诉我创建 cudaExtent 的正确方法是什么？非常感谢！

score 3 · Accepted Answer

让我们回顾一下文档的内容cudaMemcpy3D：

范围字段定义元素中传输区域的尺寸。如果 CUDA 数组参与复制，则根据该数组的元素定义范围。如果没有 CUDA 数组参与复制，则范围在 unsigned char 的元素中定义。

以及类似的cudaMalloc3DArray注释文档：

所有值都在元素中指定

因此，您需要为两个调用形成的范围需要在元素中具有第一个维度（因为其中一个分配cudaMemcpy3D是一个数组）。

但是您的代码中可能存在不同的问题，因为您正在d_volumeMem使用cudaMalloc. cudaMemcpy3D预计线性源内存已分配有兼容的间距。您的代码只是使用大小的线性分配

SIZE_X*SIZE_Y*SIZE_Z*sizeof(float)

现在，您选择的尺寸可能会为您正在使用的硬件产生兼容的间距，但不能保证它会这样做。我也建议使用cudaMalloc3D分配线性源内存。围绕您的小代码片段构建的扩展演示可能如下所示：

#include <cstdio>

typedef float  VolumeType;

const size_t SIZE_X = 8;
const size_t SIZE_Y = 8;
const size_t SIZE_Z = 8;
const size_t width = sizeof(VolumeType) * SIZE_X;

texture<VolumeType, cudaTextureType3D, cudaReadModeElementType> tex; 

__global__ void testKernel(VolumeType * output, int dimx, int dimy, int dimz)
{
    int tidx = threadIdx.x + blockIdx.x * blockDim.x;
    int tidy = threadIdx.y + blockIdx.y * blockDim.y;
    int tidz = threadIdx.z + blockIdx.z * blockDim.z;

    float x = float(tidx)+0.5f;
    float y = float(tidy)+0.5f;
    float z = float(tidz)+0.5f;

    size_t oidx = tidx + tidy*dimx + tidz*dimx*dimy;
    output[oidx] = tex3D(tex, x, y, z);
}

inline void gpuAssert(cudaError_t code, char *file, int line, bool abort=true)
{
   if (code != cudaSuccess) 
   {
      fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
      if (abort) exit(code);
   }
}

#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }

template<typename T>
void init(char * devPtr, size_t pitch, int width, int height, int depth)
{
    size_t slicePitch = pitch * height;
    int v = 0;
    for (int z = 0; z < depth; ++z) {
        char * slice = devPtr + z * slicePitch;
        for (int y = 0; y < height; ++y) {
            T * row = (T *)(slice + y * pitch);
            for (int x = 0; x < width; ++x) {
                row[x] = T(v++);
            }
        }
    }
}

int main(void)
{
    VolumeType *h_volumeMem, *d_output, *h_output;

    cudaExtent volumeSizeBytes = make_cudaExtent(width, SIZE_Y, SIZE_Z);
    cudaPitchedPtr d_volumeMem; 
    gpuErrchk(cudaMalloc3D(&d_volumeMem, volumeSizeBytes));

    size_t size = d_volumeMem.pitch * SIZE_Y * SIZE_Z;
    h_volumeMem = (VolumeType *)malloc(size);
    init<VolumeType>((char *)h_volumeMem, d_volumeMem.pitch, SIZE_X, SIZE_Y, SIZE_Z);
    gpuErrchk(cudaMemcpy(d_volumeMem.ptr, h_volumeMem, size, cudaMemcpyHostToDevice));

    cudaArray * d_volumeArray;
    cudaChannelFormatDesc channelDesc = cudaCreateChannelDesc<VolumeType>();
    cudaExtent volumeSize = make_cudaExtent(SIZE_X, SIZE_Y, SIZE_Z);
    gpuErrchk( cudaMalloc3DArray(&d_volumeArray, &channelDesc, volumeSize) ); 

    cudaMemcpy3DParms copyParams = {0};
    copyParams.srcPtr = d_volumeMem;
    copyParams.dstArray = d_volumeArray;
    copyParams.extent = volumeSize;
    copyParams.kind = cudaMemcpyDeviceToDevice;
    gpuErrchk( cudaMemcpy3D(&copyParams) ); 

    tex.normalized = false;                      
    tex.filterMode = cudaFilterModeLinear;      
    tex.addressMode[0] = cudaAddressModeWrap;   
    tex.addressMode[1] = cudaAddressModeWrap;
    tex.addressMode[2] = cudaAddressModeWrap;
    gpuErrchk(cudaBindTextureToArray(tex, d_volumeArray, channelDesc));

    size_t osize = 64 * sizeof(VolumeType);
    gpuErrchk(cudaMalloc((void**)&d_output, osize));

    testKernel<<<1,dim3(4,4,4)>>>(d_output,4,4,4);
    gpuErrchk(cudaPeekAtLastError());

    h_output = (VolumeType *)malloc(osize);
    gpuErrchk(cudaMemcpy(h_output, d_output, osize, cudaMemcpyDeviceToHost));

    for(int i=0; i<64; i++)
        fprintf(stdout, "%d %f\n", i, h_output[i]);

    return 0;
}

您可以自己确认纹理读取的输出与主机上的原始源内存匹配。

score -3 · Accepted Answer

您的代码是正确的，因为涉及 cudaArray。给数组的 channelDesc 保存有关浮动大小（4 字节）的信息。您的范围规格。使用“* sizeof(VolumeType)”将在两个内存指针之间正确复制（使用 srcPtr、dstPtr）。srcPos 和 dstPos 也必须以字节为单位，即第一个参数“* sizeof(VolumeType)”。

取决于 GPU/驱动程序，3d 操作可能仍会出现音高问题。我见过这个，但很少见（2^n 维应该没问题）。您也可以在一个 for 循环中使用 cudaMemCpy2DToArray 将其分解，因为它应该更能容忍音调。没有 cudaMalloc2D，因此任何始终正确的 2d 操作音高都由 SDK 发出。

cuda - 如何使用 make_cudaExtent 正确定义 cudaExtent？

2 回答 2

Related

Reference