我有几个 CUDA 内核,它们基本上做同样的事情,但有一些变化。我想做的是减少所需的代码量。我的第一个想法是使用宏,所以我得到的内核看起来像这样(简化):
__global__ void kernelA( ... )
{
INIT(); // macro to initialize variables
// do specific stuff for kernelA
b = a + c;
END(); // macro to write back the result
}
__global__ void kernelB( ... )
{
INIT(); // macro to initialize variables
// do specific stuff for kernelB
b = a - c;
END(); // macro to write back the result
}
...
由于宏令人讨厌、丑陋和邪恶,我正在寻找一种更好、更清洁的方法。有什么建议么?
(switch 语句不会完成这项工作:实际上,相同的部分和特定于内核的部分非常交织在一起。需要几个 switch 语句,这会使代码变得非常不可读。此外,函数调用不会初始化所需的变量。)
(这个问题也可能适用于一般 C++,只需将所有 'CUDA kernel' 替换为 'function' 并删除 '__global__' )