我正在为 CUBLAS 寻找一个非常简单的矩阵乘法示例,它可以使用高性能 GPU 操作将 M 乘以 N 并将结果放在 P 中以用于以下代码:
float M[500][500], N[500][500], P[500][500];
for(int i = 0; i < Width; i++){
for(int j = 0; j < Width; j++)
{
M[i][j] = 500;
N[i][j] = 500;
P[i][j] = 0;
}
}
到目前为止,我发现使用 CUBLAS 进行任何类型的矩阵乘法的大多数代码(似乎?)都过于复杂。
我正在尝试设计一个基础实验室,学生可以在其中比较 GPU 上的矩阵乘法与 CPU 上的矩阵乘法的性能,大概是在 GPU 上提高了性能。