我正在尝试基于布尔变量对 CUDA 内核进行模板化(如下所示:我是否应该使用 'if' 语句统一两个类似的内核,冒着性能损失的风险?),但我不断收到一个编译器错误,提示我的函数是不是模板。我认为我只是遗漏了一些明显的东西,所以这很令人沮丧。
以下不起作用:
实用工具.cuh
#include "kernels.cuh"
//Utility functions
内核.cuh
#ifndef KERNELS
#define KERNELS
template<bool approx>
__global__ void kernel(...params...);
#endif
内核.cu
template<bool approx>
__global__ void kernel(...params...)
{
if(approx)
{
//Approximate calculation
}
else
{
//Exact calculation
}
}
template __global__ void kernel<false>(...params...); //Error occurs here
主文件
#include "kernels.cuh"
kernel<false><<<dimGrid,dimBlock>>>(...params...);
以下确实有效:
实用工具.cuh
#include "kernels.cuh"
//Utility functions
内核.cuh
#ifndef KERNELS
#define KERNELS
template<bool approx>
__global__ void kernel(...params...);
template<bool approx>
__global__ void kernel(...params...)
{
if(approx)
{
//Approximate calculation
}
else
{
//Exact calculation
}
}
#endif
主文件
#include "kernels.cuh"
kernel<false><<<dimGrid,dimBlock>>>(...params...);
如果我把
template __global__ void kernel<false>(...params...);
kernels.cuh 末尾的行它也有效。
我收到以下错误(均指上面的标记行):
kernel is not a template
invalid explicit instantiation declaration
如果有什么不同,我会在一行中编译所有 .cu 文件,例如:
nvcc -O3 -arch=sm_21 -I. main.cu kernels.cu -o program