2

我注意到我可以将内存块用于使用 cudamalloc() 或 cublasalloc() 函数分配的矩阵来调用 cublas 函数。使用 cudamalloc() 而不是 cublasalloc() 分配的数组的矩阵传输速率和计算速度较慢,尽管使用使用 cudamalloc() 的数组还有其他优点。为什么会这样?很高兴听到一些评论。

4

1 回答 1

5

cublasAlloc本质上是一个包装器,cudaMalloc()所以应该没有区别,你的代码还有什么变化吗?

于 2009-11-19T10:38:26.923 回答