0

我是 CUDA 的新手,试图让一个基本的内核在设备上运行。我已经编译了示例然后运行,所以我知道设备驱动程序工作/CUDA 可以成功运行。我的目标是让我的 C++ 代码调用 CADU 以大大加快任务速度。我一直在网上阅读一堆关于如何做到这一点的不同帖子。具体来说,[这里]:我可以从未由 nvcc 编译的 C++ 代码调用 CUDA 运行时函数吗?.

当我编译和运行我的代码(发布在下面)时,我的问题非常简单(非常简单),我没有收到任何错误,但内核似乎没有运行。这应该很容易解决,但 6 小时后我不知所措。我会在 NVIDIA 论坛上发布此内容,但它们仍然处于关闭状态:/。我敢肯定答案是非常基本的 - 有什么帮助吗?下面是:我的代码,我如何编译它,以及我看到的终端输出:

主文件

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
extern void kernel_wrapper(int *a, int *b);

int main(int argc, char *argv[]){
int a = 2;
int b = 3;

printf("Input: a = %d, b = %d\n",a,b);
kernel_wrapper(&a, &b);
printf("Ran: a = %d, b = %d\n",a,b);
return 0;
}

内核.cu

#include "cuPrintf.cu"
#include <stdio.h>
__global__ void kernel(int *a, int *b){
int tx = threadIdx.x;
cuPrintf("tx = %d\n", tx);
switch( tx ){
  case 0:
    *a = *a + 10;
    break;
  case 1:
    *b = *b + 3;
    break;
  default:
    break;
  }
}

void kernel_wrapper(int *a, int *b){
  cudaPrintfInit();
  //cuPrintf("Anything...?");
  printf("Anything...?\n");
  int *d_1, *d_2;
  dim3 threads( 2, 1 );
  dim3 blocks( 1, 1 );

  cudaMalloc( (void **)&d_1, sizeof(int) );
  cudaMalloc( (void **)&d_2, sizeof(int) );

  cudaMemcpy( d_1, a, sizeof(int), cudaMemcpyHostToDevice );
  cudaMemcpy( d_2, b, sizeof(int), cudaMemcpyHostToDevice );

  kernel<<< blocks, threads >>>( a, b );
  cudaMemcpy( a, d_1, sizeof(int), cudaMemcpyDeviceToHost );
  cudaMemcpy( b, d_2, sizeof(int), cudaMemcpyDeviceToHost );
  printf("Output: a = %d\n", a[0]);
  cudaFree(d_1);
  cudaFree(d_2);

  cudaPrintfDisplay(stdout, true);
  cudaPrintfEnd();
}

我使用以下命令从终端编译上述代码:

g++ -c main.cpp
nvcc -c kernel.cu -I/home/clj/NVIDIA_GPU_Computing_SDK/C/src/simplePrintf
nvcc -o main main.o kernel.o

当我运行代码时,我得到以下终端输出:

$./main
Input: a = 2, b = 3
Anything...?
Output: a = 2
Ran: a = 2, b = 3

很明显,main.cpp 正在正确编译并调用 kernel.cu 代码。明显的问题是内核似乎没有运行。我确信这个问题的答案是基本的——非常非常基本。但我不知道发生了什么 - 请帮忙?

4

1 回答 1

3

在 kernel_wrapper 中,您有以下调用:

kernel<<< blocks, threads >>>( a, b );

您正在做的是向它传递对存在于主机上的变量的引用。GPU 无法对它们进行操作。传递的值必须存在于 GPU 上。基本上通过 d_1 和 d_2 将解决问题,结果将是 a = 12 和 b = 6。

kernel<<< blocks, threads >>>( d_1, d_2 );
于 2012-07-21T19:47:59.340 回答