假设块之间没有通信,当我从 CUDA 网格中的一个进程启动 N 个 CUDA 块时,以及当我启动 N 个 MPI 进程且每个进程有一个 CUDA 块时,效率是否存在差异?
问问题
148 次
1 回答
1
一如既往:这取决于。
如果您不使用具有设备Hyper Q
功能的 CUDA5,则在一个进程中启动网格 CUDA 网格应该更有效。否则,我可能无法确定唯一的方法来确保它正在测试。
你 可以 看这个 视频, 特别 是 Jen Hsun Huang 讲 的 部分Hyper Q
于 2012-08-05T22:26:50.910 回答