1

我正在使用 Visual Studio 2010 和具有计算能力 2.0 的 GTX480。

我尝试将 sm 设置为 2.0,但是当我尝试在内核中使用 printf() 时,我得到:

错误:不允许从 __device__/__global__ 函数(“test”)调用主机函数(“printf”)

这是我的代码:

#include "util\cuPrintf.cu"
#include <cuda.h>
#include <iostream>
#include <stdio.h>
#include <conio.h>
#include <cuda_runtime.h>

__global__ void test (void)
{
  printf("Hello, world from the device!\n");
}

void main(void)
{
    test<<<1,1>>>();
    getch();
}

我在这里找到了一个例子:“CUDA_C_Programming_Guide”'page _106'“B.16.4 Examples”最后,它对我有用:D 谢谢。

#include "stdio.h"
#include <conio.h>

// printf() is only supported
// for devices of compute capability 2.0 and higher

  #if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ < 200)
      #define printf(f, ...) ((void)(f, __VA_ARGS__),0)
  #endif


__global__ void helloCUDA(float f)
{
    printf("Hello thread %d, f=%f\n", threadIdx.x, f);
}

int main()
{
    helloCUDA<<<1, 5>>>(1.2345f);
    cudaDeviceSynchronize();
    getch();
    return 0;
}
4

3 回答 3

3

printf在内核代码中使用,您必须做三件事:

  1. 确保cstdiostdio.h包含在内核编译单元中。CUDA通过重载实现内核printf,所以你必须包含那个文件
  2. 为计算能力 2.x 或 3.x 编译代码并在支持的 GPU 上运行它(因此将类似的东西传递-arch=sm_20给 nvcc 或 Visual Studio 或 Nsight Eclipse 版本中的 IDE 等效项)
  3. 通过在主机代码中包含显式或隐式同步点来确保内核已完成运行(cudaDeviceSynchronize例如)。
于 2013-02-12T14:08:15.893 回答
1

您可能正在为不支持 printf() 的体系结构进行编译。默认情况下,该项目针对计算架构 1.0 进行编译。要更改此设置,请在 VS 中打开项目属性 -> CUDA C/C++ -> 设备并将“代码生成”属性更改为“compute_20,sm_20”。

你不需要#include "util\cuPrintf.cu"。有关如何使用 printf 以及如何刷新输出以便您实际看到结果的详细信息,请参阅此内容。

于 2013-02-12T13:50:29.923 回答
0

如果您收到该错误,则可能意味着您的 GPU 没有计算能力 2.x 或更高版本。 该线程更详细地介绍了在内核函数中打印的选项。

于 2013-02-12T13:37:11.380 回答