Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个关于 CUDA Fermi 架构的问题:我在某处读到 Fermi 架构中全局内存的访问速度就像共享内存一样快,只是因为现在它们使用统一寻址。
因此,我确实可以访问全局内存上的数据而没有(大)延迟(与“pre-Fermi”GPU 不同)?
知道这一点对我来说非常重要,因为我正在为没有它的 Nvidia Tesla GPU 编写代码(它在大学的实验室里,我在夏天无法访问它......)
这不是真的。与共享内存访问相比,Fermi 上的全局内存访问相对较长。但是,由于缓存,您可以直接命中缓存以减少延迟。这在不太理想的内存访问模式(例如稍微未对齐的访问)中特别有用。
统一内存寻址是完全不同的东西,与上述无关。如果给定的内存指针指向全局或共享(甚至映射固定主机或其他 GPU)内存,统一内存寻址允许 GPU 在运行时扣除。在 pre-Fermi 卡上,内存类型必须在编译时可推断。