是否可以在使用相同 GPU 的不同上下文(CPU 线程)之间共享一个 cudaMalloc 的 GPU 缓冲区?每个上下文分配一个输入缓冲区,该缓冲区需要由预处理内核填充,该内核将使用整个 GPU,然后将输出分配给它们。
这种情况非常适合避免与 GPU 之间进行多次数据传输。该应用程序是一个波束形成器,它将组合多个天线信号并生成多个波束,其中每个波束将由不同的 GPU 上下文处理。波束的整个处理流程已经到位,我只需要添加波束成形部分。让每个线程生成它自己的光束会复制输入数据,所以我想避免这种情况(而且,一次生成多个光束效率更高)。