1

现在 CUDA 允许动态分配全局内存。但是,我找不到任何关于该malloc函数可伸缩性的参考:它是否比预先分配一块内存然后通过原子地递增全局整数将下一个内存卡盘分配给线程更好?最后一个“自制”解决方案有效,但可扩展性存在明显问题,所以我想知道是否malloc以某种方式解决了这个问题。

4

1 回答 1

0

我认为虽然您的“自制”解决方案目前可能同样出色,但同时调用全局整数可能会减慢它的速度,但 Malloc 将是我的选择。

这是因为它允许 Nvidia 解决令人头疼的可扩展性问题,并在硬件或软件实现方面进行改进,您只需在以后重新编译代码即可利用这些改进。

于 2011-01-19T13:53:36.787 回答