2

我正在尝试在 ATI HD 6990 卡(Cayman 架构)上使用 AMD-APP-SDK 2.4 实现 GEMM 实现。

其中一种优化技术是使用分块/平铺。

在它的实现中,如果我们将子矩阵存储在共享的本地内存中会更快还是使用纹理缓存会更快?如果可能,请同时说明原因。

还请建议哪个更容易实施。

谢谢。

PS我只想要单精度,如果重要的话!

注意:子矩阵的大小不是问题,但是我觉得它越大越好。唯一需要考虑的因素是,如果内存单元是 128 位(4 个单精度),那么块大小应该是 4 的倍数。

4

1 回答 1

1

Cypress芯片用于 5800 系列 Radeon 。6900 系列使用Cayman内核,它有几个重要的区别,最值得注意的是它是 VLIW4 架构,而不是早期内核中使用的 VLIW5 配置。

与往常一样,了解哪种方法更快的唯一确定方法是对其进行基准测试。特别是,由于您没有提供有关子矩阵大小的信息,因此很难说它们最适合哪里。

于 2011-06-17T01:21:23.673 回答