我有一个大小为 100x200x800 的整数矩阵,它存储在主机上的平面 100*200*800 向量中,即我有
int* h_data = (int*)malloc(sizeof(int)*100*200*800);
在设备(GPU)上,我想用零填充每个维度,以便获得大小为 128x256x1024 的矩阵,分配如下:
int *d_data;
cudaMalloc((void**)&d_data, sizeof(int)*128*256*1024);
获得零填充矩阵的最佳方法是什么?我有两个想法:
- 遍历主机上的各个子矩阵并将它们直接复制到设备上的正确位置。
- 这种方法需要多次
cudaMemcpy
调用,因此可能非常慢
- 这种方法需要多次
- 在设备上,为 100x200x800 矩阵和 128x256x1024 矩阵分配内存,并编写一个内核,将样本复制到正确的内存空间
- 这种方法可能要快得多,但需要为设备上的两个矩阵分配内存
是否有类似于 MATLAB 的三维矩阵索引的可能性?在 MATLAB 中,我可以简单地执行以下操作:
h_data = rand(100, 200, 800);
d_data = zeros(128, 256, 1024);
d_data(1:100, 1:200, 1:800) = h_data;
或者,如果我使用 将数据复制到设备cudaMemcpy(d_data, h_data, sizeof(int)*100*200*800, cudaMemcpyHostToDevice);
,是否可以在适当的位置重新排序数据,这样我就不必为第二个矩阵分配内存,也许使用cudaMemcpy3D
或cudaMemset3D
?