cuda - NVRTC 编译何时应生成 CUBIN？

Question

如果我正确理解了NVRTC 文档中的工作流程描述，那么它是如何工作的（假设是 CUDA 源）：

从源文本创建 NVRTC 程序。
编译 NVRTC 程序以获取 PTX 代码。
使用 NVIDIA 的驱动程序 API ( cuLinkCreate, cuLinkAddData, cuLinkComplete) 对 PTX 代码进行设备链接以获取 cubin。

但是...从 CUDA 11.3 开始，NVRTC 具有以下 API 调用：

nvrtcResult nvrtcGetCUBIN ( nvrtcProgram prog, char* cubin );

那么我怎样才能在编译后拥有一个 cubin 呢？

score 1 · Accepted Answer

好吧，在主机端，你在编译后就得到了正确的机器代码，那么为什么不在设备端呢？

cubin 的可用性似乎取决于您编译的目标：

现在，当您使用 CUDA 驱动程序进行链接时，您就有了一个上下文在起作用，它总是与物理 GPU 相关联 - 一个具体的微架构。所以这必然会给你一个小方块。

PS：

1 回答 1