cuda - 在 CUDA 内核中调用全局函数

Question

我正在尝试编写一个包含矩阵乘法的 CUDA 内核函数，例如：

__device__ Matrix_Multi(Matrix A,Matrix B,Matrix C);

 __global__ void foo(type para){
       ....
       Matrix_Multi(Matrix A,Matrix B,Matrix C);
       ....
}

我想加速矩阵乘法运算。我有两个选择：

首先，使用Cublas库。其次，为矩阵乘法编写一个内核并在内部调用它foo()。

我在这两种情况下都失败了。

任何人都可以帮忙吗？

score 1 · Accepted Answer

我建议您此时不要编写自己的 mat-mul 内核。试试cublas的方式。

cublas lib 只能在计算能力至少等于 3.5 的设备的内核中调用。否则只能从主机端调用。您可以在使用 cublas lib 之前检查您的 cc 版本。

cuda - 在 CUDA 内核中调用全局函数

1 回答 1

Related

Reference