我正在尝试在 ATI HD 6990 卡(Cayman 架构)上使用 AMD-APP-SDK 2.4 实现 GEMM 实现。
其中一种优化技术是使用分块/平铺。
在它的实现中,如果我们将子矩阵存储在共享的本地内存中会更快还是使用纹理缓存会更快?如果可能,请同时说明原因。
还请建议哪个更容易实施。
谢谢。
PS我只想要单精度,如果重要的话!
注意:子矩阵的大小不是问题,但是我觉得它越大越好。唯一需要考虑的因素是,如果内存单元是 128 位(4 个单精度),那么块大小应该是 4 的倍数。