我正在编译这个 C 代码:
int mode; // use aa if true, else bb
int aa[2];
int bb[2];
inline int auto0() { return mode ? aa[0] : bb[0]; }
inline int auto1() { return mode ? aa[1] : bb[1]; }
int slow() { return auto1() - auto0(); }
int fast() { return mode ? aa[1] - aa[0] : bb[1] - bb[0]; }
slow()
和函数都fast()
旨在做同样的事情,尽管fast()
它使用一个分支语句而不是两个。我想检查 GCC 是否会将两个分支合并为一个。我已经在 GCC 4.4 和 4.7 上尝试过,并使用了各种级别的优化,例如 -O2、-O3、-Os 和 -Ofast。它总是给出同样奇怪的结果:
减缓():
movl mode(%rip), %ecx
testl %ecx, %ecx
je .L10
movl aa+4(%rip), %eax
movl aa(%rip), %edx
subl %edx, %eax
ret
.L10:
movl bb+4(%rip), %eax
movl bb(%rip), %edx
subl %edx, %eax
ret
快速地():
movl mode(%rip), %esi
testl %esi, %esi
jne .L18
movl bb+4(%rip), %eax
subl bb(%rip), %eax
ret
.L18:
movl aa+4(%rip), %eax
subl aa(%rip), %eax
ret
实际上,每个函数中只生成一个分支。然而,slow()
它似乎以一种令人惊讶的方式逊色:它在每个分支中使用了一个额外的负载,foraa[0]
和bb[0]
. 该fast()
代码直接从subl
s 的内存中使用它们,而无需先将它们加载到寄存器中。所以slow()
每次调用使用一个额外的寄存器和一个额外的指令。
一个简单的微基准测试表明,调用fast()
10 亿次需要 0.7 秒,而slow()
. 我正在使用 2.9 GHz 的 Xeon E5-2690。
为什么会这样?你能以某种方式调整我的源代码,以便 GCC 做得更好吗?
编辑:这是 Mac OS 上 clang 4.2 的结果:
减缓():
movq _aa@GOTPCREL(%rip), %rax ; rax = aa (both ints at once)
movq _bb@GOTPCREL(%rip), %rcx ; rcx = bb
movq _mode@GOTPCREL(%rip), %rdx ; rdx = mode
cmpl $0, (%rdx) ; mode == 0 ?
leaq 4(%rcx), %rdx ; rdx = bb[1]
cmovneq %rax, %rcx ; if (mode != 0) rcx = aa
leaq 4(%rax), %rax ; rax = aa[1]
cmoveq %rdx, %rax ; if (mode == 0) rax = bb
movl (%rax), %eax ; eax = xx[1]
subl (%rcx), %eax ; eax -= xx[0]
快速地():
movq _mode@GOTPCREL(%rip), %rax ; rax = mode
cmpl $0, (%rax) ; mode == 0 ?
je LBB1_2 ; if (mode != 0) {
movq _aa@GOTPCREL(%rip), %rcx ; rcx = aa
jmp LBB1_3 ; } else {
LBB1_2: ; // (mode == 0)
movq _bb@GOTPCREL(%rip), %rcx ; rcx = bb
LBB1_3: ; }
movl 4(%rcx), %eax ; eax = xx[1]
subl (%rcx), %eax ; eax -= xx[0]
有趣:clang 生成无分支条件,slow()
但只有一个分支fast()
!另一方面,slow()
执行三个负载(其中两个是推测性的,一个是不必要的)与两个用于fast()
. 该fast()
实现更加“明显”,并且与 GCC 一样,它更短并且使用的寄存器更少。
Mac OS 上的 GCC 4.7 通常会遇到与 Linux 上相同的问题。然而,它使用与 Mac OS 上的 Clang 相同的“加载 8 个字节然后两次提取 4 个字节”模式。这有点有趣,但不是很相关,因为使用两个寄存器而不是一个内存和一个寄存器发出的原始问题在subl
GCC 的任一平台上都是相同的。