我正在尝试了解有关指令级分析的并行 forall 帖子。尤其是Reducing Memory Dependency Stalls部分中的以下几行:
NVIDIA GPU 没有索引寄存器文件,因此如果使用动态索引访问堆栈数组,编译器必须在本地内存中分配数组。在 Maxwell 架构中,本地内存存储不会缓存在 L1 中,因此存储后本地内存加载的延迟很重要。
我了解什么是寄存器文件,但它们没有被索引是什么意思?为什么它会阻止编译器存储使用动态索引访问的堆栈数组?
引用说数组将存储在本地内存中。在下面的架构中,这个本地内存对应什么块?