3

我需要比天真的方法更好地实现矩阵乘法 这里是我使用的方法:1-删除了使性能更好的错误依赖项 2-使用了递归方法,然后我需要尝试循环展开。问题是每次我使用它时,它都会使性能最差我找不到它的解释我需要帮助这里是代码

 for (i = 0; i < M; i++)
    for (j = 0; j < N; j++) {
    double sum = 0;
        #pragma unroll(5)
          for (k = 0; k < K; k++)
        {
        sum +=  A[i + k*LDA] * B[k + j*LDB];
        }
        C[i + j*LDC] = sum ;
    }
4

0 回答 0