cuda - CUDA Fermi 的架构：内存结构

Question

我有一个关于 CUDA Fermi 架构的问题：我在某处读到 Fermi 架构中全局内存的访问速度就像共享内存一样快，只是因为现在它们使用统一寻址。

因此，我确实可以访问全局内存上的数据而没有（大）延迟（与“pre-Fermi”GPU 不同）？

知道这一点对我来说非常重要，因为我正在为没有它的 Nvidia Tesla GPU 编写代码（它在大学的实验室里，我在夏天无法访问它......）

score 1 · Accepted Answer

这不是真的。与共享内存访问相比，Fermi 上的全局内存访问相对较长。但是，由于缓存，您可以直接命中缓存以减少延迟。这在不太理想的内存访问模式（例如稍微未对齐的访问）中特别有用。

统一内存寻址是完全不同的东西，与上述无关。如果给定的内存指针指向全局或共享（甚至映射固定主机或其他 GPU）内存，统一内存寻址允许 GPU 在运行时扣除。在 pre-Fermi 卡上，内存类型必须在编译时可推断。

1 回答 1