我在 CUDA 上写了一个简单的函数。它将图像大小调整为两倍。对于 1920*1080 的图像,此功能需要 ~20ms 才能完成。我尝试了一些不同的方法来优化该功能。而且我发现可能是本地内存是关键原因。
我尝试了三种不同的方法来获取图像。
- OpenCV中的GPU模块
- 纹理绑定到 OpenCV 中的 GpuMat
- 直接从全局内存中获取 GpuMat
他们都不能给我带来一点进步。
然后我使用nvvp找出原因。在上述所有三种情况下,本地内存开销约为 95%。
所以我转向我的代码来了解 nvcc 如何使用内存。然后我发现一个简单的函数就像这样:
__global__ void performDoubleImage(float* outData, size_t step, const int cols, const int rows)
{
int x = threadIdx.x + blockIdx.x * blockDim.x;
if (x >= cols)
return;
int y = threadIdx.y + blockIdx.y * blockDim.y;
if (y >= rows)
return;
((float*)((size_t)outData+y*step))[x] = tex2D(texRef, x/2, y/2);
}
需要 80 字节的堆栈帧(它们在本地内存中)。
还有一个像这样的功能:
__global__ void performFinalDoubleImage(const PtrStepSz<float> in, PtrStepSz<float> out)
{
out(out.rows-1, out.cols-1) = out(in.rows-1, in.cols-1);
}
还需要 88 字节的堆栈帧。
问题是,为什么我的函数在这个简单的任务中使用了如此多的本地内存和寄存器?为什么OpenCV中的函数可以通过不使用本地内存来执行相同的功能(这是nvvp测试,本地内存负载为零)?
我的代码是在调试模式下编译的。我的卡是 GT650(192 SP/SM, 2 SM)。