这是内核代码的一部分 - 为每个线程声明变量和所需的操作
.global.f32 sum = 0.0
.reg.f32 reg;
atom.global.add.f32 reg, [sum], val;
我想将每个线程中的不同变量添加到全局变量 sum。我假设上面发布的代码是正确的 - 一切都顺利编译。但是我无法将全局变量 sum 的值返回给主机。
在内核执行之后,我有以下主机代码。
CUdeviceptr hostSumPtr;
size_t bytes;
cuModuleGetGlobal(&hostSumPtr, &bytes, hModule, "sum");
但返回错误代码 500 "CUDA_ERROR_NOT_FOUND"
有什么方法可以将内核中声明的全局变量的值传递给主机,或者有什么方法可以通过不同的方法绕过这个问题?