我正在尝试编写一个包含矩阵乘法的 CUDA 内核函数,例如:
__device__ Matrix_Multi(Matrix A,Matrix B,Matrix C);
__global__ void foo(type para){
....
Matrix_Multi(Matrix A,Matrix B,Matrix C);
....
}
我想加速矩阵乘法运算。我有两个选择:
首先,使用Cublas库。其次,为矩阵乘法编写一个内核并在内部调用它foo()
。
我在这两种情况下都失败了。
任何人都可以帮忙吗?