pointers - 如何将设备函数作为输入参数传递给主机端函数？

Question

我只想将设备函数作为主机函数的参数传递，当然，主机函数然后可以使用这个设备端函数启动一些内核。

我尝试了通常的 C++ 方式（通过指针/引用传递），CUDA 调试器告诉我内核无法启动。

更新：

我想做的是：

__host__ void hostfunction(int a, int (*DeviceFunction)(int))
{
   /...do something.../
   somekernel<<<blocks, threads>>>(int * in, DeviceFunction);
}

并启动主机：

hostfunction(x, &SomeDeviceFunctionTemplate<int>);

score 2 · Accepted Answer

这个例子可能很有趣：

$ cat t237.cu
#include <stdio.h>


__device__ int f1(){ printf("dev f1\n"); return 0;}
__device__ int f2(){ printf("dev f2\n"); return 0;}
__device__ int f3(){ printf("dev f3\n"); return 0;}

__device__ int *fptrf1 = (int *)f1;
__device__ int *fptrf2 = (int *)f2;
__device__ int *fptrf3 = (int *)f3;


__global__ void mykernel(int (*fptr)()){

  fptr();
  printf("executed\n");
}

int main(){

  int *hf1, *hf2, *hf3;
  cudaMemcpyFromSymbol(&hf1, fptrf1, sizeof(int *));
  cudaMemcpyFromSymbol(&hf2, fptrf2, sizeof(int *));
  cudaMemcpyFromSymbol(&hf3, fptrf3, sizeof(int *));
  mykernel<<<1,1>>>((int (*)())hf1);
  cudaDeviceSynchronize();
  mykernel<<<1,1>>>((int (*)())hf2);
  cudaDeviceSynchronize();
  mykernel<<<1,1>>>((int (*)())hf3);
  cudaDeviceSynchronize();
  return 0;
}
$ nvcc -arch=sm_20 -O3 -o t237 t237.cu
$ ./t237
dev f1
executed
dev f2
executed
dev f3
executed
[bob@cluster1 misc]$

我认为这大致符合 Jared 的建议。正如他所提到的，这在主机代码中是不可能的：

&SomeDeviceFunctionTemplate<int>

假设SomeDeviceFunctionTemplate是指一个__device__函数。

score 1 · Accepted Answer

如果您可以发布您正在尝试做的事情的示例，这将很有帮助，但要检查的一件事是您正在 Fermi (sm_20) 或更高版本上编译和运行，因为较旧的 GPU 不支持非内联函数调用。

检查您设备的计算能力（需要 2.0 或更高版本）并检查您的 nvcc 命令行（需要-arch=sm_20或更高版本，或-gencode同等版本）。

pointers - 如何将设备函数作为输入参数传递给主机端函数？

2 回答 2

Related

Reference