-2

我正在尝试编写一个包含矩阵乘法的 CUDA 内核函数,例如:

__device__ Matrix_Multi(Matrix A,Matrix B,Matrix C);

 __global__ void foo(type para){
       ....
       Matrix_Multi(Matrix A,Matrix B,Matrix C);
       ....
}

我想加速矩阵乘法运算。我有两个选择:

首先,使用Cublas库。其次,为矩阵乘法编写一个内核并在内部调用它foo()

我在这两种情况下都失败了。

任何人都可以帮忙吗?

4

1 回答 1

1

我建议您此时不要编写自己的 mat-mul 内核。试试cublas的方式。

cublas lib 只能在计算能力至少等于 3.5 的设备的内核中调用。否则只能从主机端调用。您可以在使用 cublas lib 之前检查您的 cc 版本。

于 2013-08-26T09:08:35.263 回答