现在 CUDA 允许动态分配全局内存。但是,我找不到任何关于该malloc
函数可伸缩性的参考:它是否比预先分配一块内存然后通过原子地递增全局整数将下一个内存卡盘分配给线程更好?最后一个“自制”解决方案有效,但可扩展性存在明显问题,所以我想知道是否malloc
以某种方式解决了这个问题。
问问题
309 次
现在 CUDA 允许动态分配全局内存。但是,我找不到任何关于该malloc
函数可伸缩性的参考:它是否比预先分配一块内存然后通过原子地递增全局整数将下一个内存卡盘分配给线程更好?最后一个“自制”解决方案有效,但可扩展性存在明显问题,所以我想知道是否malloc
以某种方式解决了这个问题。