CUDA 是否支持 CUDA 内核的 JIT 编译?
我知道 OpenCL 提供了这个功能。
我有一些在运行时不会更改的变量(即仅取决于输入文件),因此我想在内核编译时(即在运行时)用宏定义这些值。
如果我在编译时手动定义这些值,我的寄存器使用量会从 53 下降到 46,这大大提高了性能。
它随 cuda 7.0 的 nvrtc 库提供。通过这个库,您可以在运行时编译您的 cuda 代码。
http://devblogs.nvidia.com/parallelforall/cuda-7-release-candidate-feature-overview/
但是你可以获得什么样的优势?在我看来,我找不到动态编译的这么多显着优势。