-2

我想计算 Cuda 中整个图像的平均值。为了测试二维数组的缩减是如何工作的,我在下面编写了这个内核。最终输出 o 应该是所有图像值的总和。输入 g 是一个二维数组,每个像素的值为 1。但是这个程序的结果是 0 作为总和。对我来说有点奇怪。

我在本教程中模仿一维数组的减少http://developer.download.nvidia.com/compute/cuda/1.1-Beta/x86_website/projects/reduction/doc/reduction.pdf我写了这个二维表格。我是 Cuda 的新手。欢迎对潜在错误和改进提出建议!

只需添加一条评论。我知道仅计算一维数组中的平均值是有意义的。但我想利用更多并测试更复杂的归约行为。可能不对。但只是一个测试。希望任何人都可以给我更多关于减少常见做法的建议。

#include <iostream>
#include <stdio.h>
#include <stdlib.h>
#include <time.h>

cudaEvent_t start, stop;
float elapsedTime;

__global__ void 
reduce(float *g, float *o, const int dimx, const int dimy)
{
extern __shared__ float sdata[];

unsigned int tid_x = threadIdx.x;
unsigned int tid_y = threadIdx.y;

unsigned int i = blockDim.x * blockIdx.x + threadIdx.x;
unsigned int j = blockDim.y * blockIdx.y + threadIdx.y; 

if (i >= dimx || j >= dimy)
    return;

sdata[tid_x*blockDim.y + tid_y] = g[i*dimy + j];

__syncthreads();

for(unsigned int s_y = blockDim.y/2; s_y > 0; s_y >>= 1)
{
    if (tid_y < s_y)
    {
        sdata[tid_x * dimy + tid_y] += sdata[tid_x * dimy + tid_y + s_y];
    }
    __syncthreads();
}

for(unsigned int s_x = blockDim.x/2; s_x > 0; s_x >>= 1 )
{

    if(tid_x < s_x)
    {
        sdata[tid_x * dimy] += sdata[(tid_x + s_x) * dimy];
    }
    __syncthreads();
}

float sum;

if( tid_x == 0 && tid_y == 0)
{ 
    sum = sdata[0];
    atomicAdd (o, sum);   // The result should be the sum of all pixel values. But the program produce 0
}

//if(tid_x==0 && tid__y == 0 ) 
    //o[blockIdx.x] = sdata[0];
}

int
main()
{   
int dimx = 320;
int dimy = 160;
int num_bytes = dimx*dimy*sizeof(float);

float *d_a, *h_a, // device and host pointers
            *d_o=0, *h_o=0;

h_a = (float*)malloc(num_bytes);
h_o = (float*)malloc(sizeof(float));

srand(time(NULL));


for (int i=0; i < dimx; i++)
{   
    for (int j=0; j < dimy; j++)
    {
        h_a[i*dimy + j] = 1;
    }
}

cudaMalloc( (void**)&d_a, num_bytes );
cudaMalloc( (void**)&d_o, sizeof(int) );

cudaMemcpy( d_a, h_a, num_bytes, cudaMemcpyHostToDevice);
cudaMemcpy( d_o, h_o, sizeof(int), cudaMemcpyHostToDevice); 

dim3 grid, block;
block.x = 4;
block.y = 4;
grid.x = dimx / block.x;
grid.y = dimy / block.y;

cudaEventCreate(&start);
cudaEventRecord(start, 0);

int sizeofSharedMemory = dimx*dimy*sizeof(float);

reduce<<<grid, block, sizeofSharedMemory>>> (d_a, d_o, block.x, block.y);

cudaEventCreate(&stop);
cudaEventRecord(stop, 0);
cudaEventSynchronize(stop);

cudaEventElapsedTime(&elapsedTime, start, stop);
std::cout << "This kernel runs: " << elapsedTime << "ms" << std::endl; 

std::cout << block.x << " " << block.y << std::endl;
std::cout << grid.x << " " << grid.y << std::endl;
std::cout << dimx <<  " " << dimy << " " << dimx*dimy << std::endl;

cudaMemcpy( h_a, d_a, num_bytes, cudaMemcpyDeviceToHost );
cudaMemcpy( h_o, d_o, sizeof(int), cudaMemcpyDeviceToHost );

std::cout << "The sum is:" << *h_o << std::endl;

free(h_a);
free(h_o);
cudaFree(d_a);
cudaFree(d_o);

}
4

1 回答 1

11

如果您进行基本的cuda 错误检查,您会发现您的 reduce 内核甚至没有运行。原因如下:

int dimx = 320;
int dimy = 160;
...
int sizeofSharedMemory = dimx*dimy*sizeof(float); // = 204800

reduce<<<grid, block, sizeofSharedMemory>>> (d_a, d_o, block.x, block.y);
                          ^
                          |
                         204800 is illegal here

您不能动态(或任何其他方式)请求 204800 字节的共享内存。最大值略小于 48K 字节。

如果您进行了适当的 cuda 错误检查,您会发现您的内核没有运行,并且会收到一条指示性错误消息,表明启动配置(<<< ... >>> 之间的数字)无效。共享内存是在每个块的基础上请求的,当每个块仅包含一个 4x4 线程数组时,您需要请求足够的共享内存来覆盖整个 2D 数据集可能是不明智的。您可能只需要足够的数据来处理每个 4x4 线程数组将访问的内容。

在您使用 cuda 错误检查正确检测代码并检测并纠正所有错误后,然后使用cuda-memcheck. 这将执行额外级别的错误检查以指出任何内核访问错误。cuda-memcheck如果您遇到未指定的启动失败,您也可以使用它,它可能有助于查明问题。

完成这些基本的故障排除步骤后,向其他人寻求帮助可能是有意义的。但首先要使用您获得的工具的力量。

在您回来并再次发布此代码以寻求帮助之前,我还想指出另一个错误。

这将没有用:

std::cout << "The sum is:" << *h_o << std::endl;

cudaMemcpy( h_a, d_a, num_bytes, cudaMemcpyDeviceToHost );
cudaMemcpy( h_o, d_o, sizeof(int), cudaMemcpyDeviceToHost );

在将总和从设备复制到主机之前,您正在打印总和。颠倒这些步骤的顺序:

cudaMemcpy( h_a, d_a, num_bytes, cudaMemcpyDeviceToHost );
cudaMemcpy( h_o, d_o, sizeof(int), cudaMemcpyDeviceToHost );

std::cout << "The sum is:" << *h_o << std::endl;
于 2013-07-20T13:50:20.650 回答