1

当处理全局数组的元素(写入或读取)时,一个工作项中的一个条目,如果我访问相邻工作项的相邻内存地址,则效率更高。这是因为内存是“流式传输的”。

当此类访问的顺序是相反的顺序时,是否存在任何性能问题,即如果工作项X访问类似于的地址size - 1 - X

另外,在考虑性能时是否应该只考虑第一个维度?


我目前正在为我们应该旋转矩阵的 GPGPU 课程做作业评估。我们应该在工作组中逐块执行此操作以实现最佳性能。这个想法是首先将源块复制到本地内存中,在本地旋转它,然后将其写回正确的位置。我首先实现了一个转置(镜像对角线),现在想要镜像它。如果这不是性能问题(最大性能是此作业任务的要求),我现在可以简单地访问具有镜像索引的矩阵的结果数组。

4

0 回答 0