如何在 Cuda 的设备内存中分配和传输(与主机之间)二维数组?
问问题
27373 次
3 回答
19
我找到了解决这个问题的方法。我不必展平阵列。
内置cudaMallocPitch()
功能完成了这项工作。我可以使用cudaMemcpy2D()
函数将数组传入和传出设备。
例如
cudaMallocPitch((void**) &array, &pitch, a*sizeof(float), b);
这将创建一个大小为 a*b 的二维数组,其中音高作为参数传入。
以下代码创建一个二维数组并循环遍历元素。它很容易编译,您可以使用它。
#include<stdio.h>
#include<cuda.h>
#define height 50
#define width 50
// Device code
__global__ void kernel(float* devPtr, int pitch)
{
for (int r = 0; r < height; ++r) {
float* row = (float*)((char*)devPtr + r * pitch);
for (int c = 0; c < width; ++c) {
float element = row[c];
}
}
}
//Host Code
int main()
{
float* devPtr;
size_t pitch;
cudaMallocPitch((void**)&devPtr, &pitch, width * sizeof(float), height);
kernel<<<100, 512>>>(devPtr, pitch);
return 0;
}
于 2009-06-26T10:51:49.553 回答
3
展平它:使其成为一维的。在这里查看它是如何完成的
于 2009-06-26T05:50:56.220 回答
2
您的设备代码可能会更快。尝试更多地利用线程。
__global__ void kernel(float* devPtr, int pitch)
{
int r = threadIdx.x;
float* row = (float*)((char*)devPtr + r * pitch);
for (int c = 0; c < width; ++c) {
float element = row[c];
}
}
然后计算适当的块和线程分配,以便每个线程处理单个元素。
于 2012-07-31T05:56:05.857 回答