Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在做一些计算,并对不同 BLAS 实现的力量和弱点进行一些分析。但是我遇到了一个问题。
我正在测试 cuBlas,在 GPU 上做 linAlg 似乎是个好主意,但有一个问题。
使用列主要格式的 cuBlas 实现,由于这不是我最终需要的,我很好奇是否有一种方法可以使 BLAS 进行矩阵转置?
BLAS 没有内置矩阵转置例程。CUDA SDK 包含一个矩阵转置示例和一篇讨论执行转置的最佳策略的论文。您最好的策略可能是使用带有转置输入版本调用的 CUBLAS 的行主要输入,然后在列主要中执行中间计算,最后使用 SDK 转置内核执行转置操作。
编辑添加了 CUBLAS 在 CUBLAS 版本 5 中添加了一个转置例程geam,它可以在 GPU 内存中执行矩阵转置,并且应该被视为您使用的任何架构的最佳选择。
geam