我需要比天真的方法更好地实现矩阵乘法 这里是我使用的方法:1-删除了使性能更好的错误依赖项 2-使用了递归方法,然后我需要尝试循环展开。问题是每次我使用它时,它都会使性能最差我找不到它的解释我需要帮助这里是代码
for (i = 0; i < M; i++)
for (j = 0; j < N; j++) {
double sum = 0;
#pragma unroll(5)
for (k = 0; k < K; k++)
{
sum += A[i + k*LDA] * B[k + j*LDB];
}
C[i + j*LDC] = sum ;
}