1

我开始学习 CUDA,我想编写一个简单的程序,将一些数据复制到 GPU,对其进行修改,然后将其传回。我已经用谷歌搜索并试图找到我的错误。我很确定问题出在我的内核中,但我不完全确定出了什么问题。

这是我的内核:

__global__ void doStuff(float* data, float* result)
{
    if (threadIdx.x < 9) // take the first 9 threads
    {
        int index = threadIdx.x;
        result[index] = (float) index;
    }
}

以下是我的相关部分main

#include <stdlib.h>
#include <stdio.h>

int main(void)
{
    /*
        Setup
    */
    float simple[] = {-1.0, -2.0, -3.0, -4.0, -5.0, -6.0, -7.0, -8.0, -9.0};

    float* data_array;
    float* result_array;

    size_t data_array_pitch, result_array_pitch;
    int width_in_bytes = 3 * sizeof(float);
    int height = 3;

    /*
        Initialize GPU arrays
    */
    cudaMallocPitch(&data_array, &data_array_pitch, width_in_bytes, height);
    cudaMallocPitch(&result_array, &result_array_pitch, width_in_bytes, height);

    /*
        Copy data to GPU
    */
    cudaMemcpy2D(data_array, data_array_pitch, simple, width_in_bytes, width_in_bytes, height, cudaMemcpyHostToDevice);

    dim3 threads_per_block(16, 16);
    dim3 num_blocks(1,1);

    /*
        Do stuff
    */
    doStuff<<<num_blocks, threads_per_blocks>>>(data_array, result_array);

    /*
        Get the results
    */
    cudaMemcpy2D(simple, width_in_bytes, result_array, result_array_pitch, width_in_bytes, height, cudaMemcpyDeviceToHost);

    for (int i = 1; i <= 9; ++i)
    {
        printf("%f ", simple[i-1]);
        if(!(i%3))
            printf("\n");
    }

    return 0;
}

当我运行它时,我得到0.000000 1.000000 2.00000第一行和其他两行的垃圾。

4

2 回答 2

3

如果您刚开始学习 cuda,我不确定我是否会专注于 2D 数组。

如果您手动将代码输入问题也很好奇,因为您threads_per_block定义了一个变量,但随后您threads_per_blocks在内核调用中使用。

无论如何,您的代码存在几个问题:

  1. 使用二维数组时,几乎总是需要将音高参数(以某种方式)传递给内核。 cudaMallocPitch 在每行的末尾分配带有额外填充的数组,以便下一行从对齐良好的边界开始。这通常会导致分配粒度为 128 或 256 字节。所以你的第一行有 3 个有效的数据实体,后面有足够的空白空间来填充,比如 256 个字节(等于你的音高变量)。所以我们必须改变内核调用和内核本身来解决这个问题。
  2. 您的内核本质上是一维内核(例如,它不理解或使用threadIdx.y)。因此,启动 2D 网格没有意义。尽管在这种情况下它不会伤害任何东西,但它会产生冗余,这在其他代码中可能会令人困惑和麻烦。

这是一个更新的代码,显示了一些更改,这些更改将为您提供预期的结果,基于上述评论:

#include <stdio.h>


__global__ void doStuff(float* data, float* result, size_t dpitch, size_t rpitch, int width)
{
    if (threadIdx.x < 9) // take the first 9 threads
    {
        int index = threadIdx.x;
        result[((index/width)*(rpitch/sizeof(float)))+ (index%width)] = (float) index;
    }
}

int main(void)
{
    /*
        Setup
    */
    float simple[] = {-1.0, -2.0, -3.0, -4.0, -5.0, -6.0, -7.0, -8.0, -9.0};

    float* data_array;
    float* result_array;

    size_t data_array_pitch, result_array_pitch;
    int height = 3;
    int width = 3;
    int width_in_bytes = width * sizeof(float);

    /*
        Initialize GPU arrays
    */
    cudaMallocPitch(&data_array, &data_array_pitch, width_in_bytes, height);
    cudaMallocPitch(&result_array, &result_array_pitch, width_in_bytes, height);

    /*
        Copy data to GPU
    */
    cudaMemcpy2D(data_array, data_array_pitch, simple, width_in_bytes, width_in_bytes, height, cudaMemcpyHostToDevice);

    dim3 threads_per_block(16);
    dim3 num_blocks(1,1);

    /*
        Do stuff
    */
    doStuff<<<num_blocks, threads_per_block>>>(data_array, result_array, data_array_pitch, result_array_pitch, width);

    /*
        Get the results
    */
    cudaMemcpy2D(simple, width_in_bytes, result_array, result_array_pitch, width_in_bytes, height, cudaMemcpyDeviceToHost);

    for (int i = 1; i <= 9; ++i)
    {
        printf("%f ", simple[i-1]);
        if(!(i%3))
            printf("\n");
    }
    return 0;
}

您可能还会发现这个问题很有趣。

编辑:回答评论中的问题:

result[((index/width)*(rpitch/sizeof(float)))+ (index%width)] = (float) index;
              1               2                      3

为了计算正确的元素索引到倾斜数组中,我们必须:

  1. 从线程索引计算(虚拟)行索引。我们通过将线程索引除以每个(非间距)行的宽度(以元素而不是字节为单位)的整数除法来做到这一点。
  2. 将行索引乘以每个倾斜行的宽度。每个倾斜行的宽度由 pitched 参数给出,以字节为单位。为了将这个音高字节参数转换为音高元素参数,我们除以每个元素的大小。然后通过将数量乘以在步骤 1 中计算的行索引,我们现在已经索引到正确的行。
  3. 通过取线程索引的余数(模除)除以宽度(以元素为单位),从线程索引计算(虚拟)列索引。一旦我们有了列索引(在元素中),我们将它添加到在步骤 2 中计算的正确行开始索引中,以识别该线程将负责的元素。

以上对于相对简单的操作来说是相当大的努力,这就是为什么我建议首先关注基本 cuda 概念而不是倾斜数组的一个例子。例如,在处理倾斜阵列之前,我将计算如何处理 1 维和 2D 线程块,以及 1 和 2D 网格。在某些情况下,间距数组是访问 2D 数组(或 3D 数组)的有用的性能增强器,但它们绝不是处理 CUDA 中的多维数组所必需的。

于 2013-06-03T21:40:03.607 回答
0

实际上也可以通过更换线路来完成

int width_in_bytes = 3 * sizeof(float);

经过:

int width_in_bytes = sizeof(float)*9;

因为这是告诉 cudaMemcpy2D 从 src 复制多少字节到 dst 的参数,在第一个代码中您要求复制 3 个浮点数,但是您要复制的数组的长度为 9,因此您需要的宽度是9个浮点数。

尽管此解决方案有效,但您的代码仍然存在一些低效率;例如,如果您真的希望块的前 9 个线程执行某些操作,则在“if”中您应该使用 and(&&) 添加以下条件

threadIdx.y==0
于 2013-06-03T22:09:50.663 回答