我正在用不同的优化级别(出于教学目的)对不同的矩阵乘法形式进行基准测试,并且我在 gcc 自动向量化中检测到了一个奇怪的行为。当数组是参数时它无法向量化(参见 mxmp),但当数组是全局变量时它能够向量化(参见 mxmg)
gcc 版本 7.4.0 (Ubuntu 7.4.0-1ubuntu1~18.04.1) 但行为与旧 gcc 版本相同
编译选项:gcc -O3 -mavx2 -mfma
#define N 1024
float A[N][N], B[N][N], C[N][N];
void mxmp(float A[N][N], float B[N][N], float C[N][N]) {
int i,j,k;
for (i=0; i<N; i++)
for (j=0; j<N; j++)
for (k=0; k<N; k++)
C[i][j] = C[i][j] + A[i][k] * B[k][j];
}
void mxmg() {
int i,j,k;
for (i=0; i<N; i++)
for (j=0; j<N; j++)
for (k=0; k<N; k++)
C[i][j] = C[i][j] + A[i][k] * B[k][j];
}
main(){
mxmg();
mxmp(A, B, C);
}
我希望编译器在这两个函数中执行相同的操作,但是 mxmp 需要大约 10 倍于 mxmg 的执行时间。探索汇编代码,恰好 gcc 能够自动矢量化 mxmg(当数组是全局变量时)但无法矢量化 mxmp(其中数组是参数)。
用 kij 形式尝试了同样的方法,它能够对这两个函数进行矢量化。
我需要帮助来发现为什么 gcc 有这种行为。以及如何帮助 gcc(编译指示、编译选项、属性...)正确矢量化 mxmp 函数。谢谢