10

我正在做一些计算,并对不同 BLAS 实现的力量和弱点进行一些分析。但是我遇到了一个问题。

我正在测试 cuBlas,在 GPU 上做 linAlg 似乎是个好主意,但有一个问题。

使用列主要格式的 cuBlas 实现,由于这不是我最终需要的,我很好奇是否有一种方法可以使 BLAS 进行矩阵转置?

4

1 回答 1

11

BLAS 没有内置矩阵转置例程。CUDA SDK 包含一个矩阵转置示例和一篇讨论执行转置的最佳策略的论文。您最好的策略可能是使用带有转置输入版本调用的 CUBLAS 的行主要输入,然后在列主要中执行中间计算,最后使用 SDK 转置内核执行转置操作。


编辑添加了 CUBLAS 在 CUBLAS 版本 5 中添加了一个转置例程geam,它可以在 GPU 内存中执行矩阵转置,并且应该被视为您使用的任何架构的最佳选择。

于 2011-10-16T16:32:37.837 回答