24

我正在编译这个 C 代码:

int mode; // use aa if true, else bb
int aa[2];
int bb[2];

inline int auto0() { return mode ? aa[0] : bb[0]; }
inline int auto1() { return mode ? aa[1] : bb[1]; }

int slow() { return auto1() - auto0(); }
int fast() { return mode ? aa[1] - aa[0] : bb[1] - bb[0]; }

slow()和函数都fast()旨在做同样的事情,尽管fast()它使用一个分支语句而不是两个。我想检查 GCC 是否会将两个分支合并为一个。我已经在 GCC 4.4 和 4.7 上尝试过,并使用了各种级别的优化,例如 -O2、-O3、-Os 和 -Ofast。它总是给出同样奇怪的结果:

减缓():

        movl    mode(%rip), %ecx
        testl   %ecx, %ecx
        je      .L10

        movl    aa+4(%rip), %eax
        movl    aa(%rip), %edx
        subl    %edx, %eax
        ret
.L10:
        movl    bb+4(%rip), %eax
        movl    bb(%rip), %edx
        subl    %edx, %eax
        ret

快速地():

        movl    mode(%rip), %esi
        testl   %esi, %esi
        jne     .L18

        movl    bb+4(%rip), %eax
        subl    bb(%rip), %eax
        ret
.L18:
        movl    aa+4(%rip), %eax
        subl    aa(%rip), %eax
        ret

实际上,每个函数中只生成一个分支。然而,slow()它似乎以一种令人惊讶的方式逊色:它在每个分支中使用了一个额外的负载,foraa[0]bb[0]. 该fast()代码直接从subls 的内存中使用它们,而无需先将它们加载到寄存器中。所以slow()每次调用使用一个额外的寄存器和一个额外的指令。

一个简单的微基准测试表明,调用fast()10 亿次需要 0.7 秒,而slow(). 我正在使用 2.9 GHz 的 Xeon E5-2690。

为什么会这样?你能以某种方式调整我的源代码,以便 GCC 做得更好吗?

编辑:这是 Mac OS 上 clang 4.2 的结果:

减缓():

        movq    _aa@GOTPCREL(%rip), %rax   ; rax = aa (both ints at once)
        movq    _bb@GOTPCREL(%rip), %rcx   ; rcx = bb
        movq    _mode@GOTPCREL(%rip), %rdx ; rdx = mode
        cmpl    $0, (%rdx)                 ; mode == 0 ?
        leaq    4(%rcx), %rdx              ; rdx = bb[1]
        cmovneq %rax, %rcx                 ; if (mode != 0) rcx = aa
        leaq    4(%rax), %rax              ; rax = aa[1]
        cmoveq  %rdx, %rax                 ; if (mode == 0) rax = bb
        movl    (%rax), %eax               ; eax = xx[1]
        subl    (%rcx), %eax               ; eax -= xx[0]

快速地():

        movq    _mode@GOTPCREL(%rip), %rax ; rax = mode
        cmpl    $0, (%rax)                 ; mode == 0 ?
        je      LBB1_2                     ; if (mode != 0) {
        movq    _aa@GOTPCREL(%rip), %rcx   ;   rcx = aa
        jmp     LBB1_3                     ; } else {
LBB1_2:                                    ; // (mode == 0)
        movq    _bb@GOTPCREL(%rip), %rcx   ;   rcx = bb
LBB1_3:                                    ; }
        movl    4(%rcx), %eax              ; eax = xx[1]
        subl    (%rcx), %eax               ; eax -= xx[0]

有趣:clang 生成无分支条件,slow()但只有一个分支fast()!另一方面,slow()执行三个负载(其中两个是推测性的,一个是不必要的)与两个用于fast(). 该fast()实现更加“明显”,并且与 GCC 一样,它更短并且使用的寄存器更少。

Mac OS 上的 GCC 4.7 通常会遇到与 Linux 上相同的问题。然而,它使用与 Mac OS 上的 Clang 相同的“加载 8 个字节然后两次提取 4 个字节”模式。这有点有趣,但不是很相关,因为使用两个寄存器而不是一个内存和一个寄存器发出的原始问题在sublGCC 的任一平台上都是相同的。

4

3 回答 3

22

原因是在初始中间代码中,为 发出的slow(),内存负载和减法在不同的基本块中:

slow ()
{
  int D.1405;
  int mode.3;
  int D.1402;
  int D.1379;

  # BLOCK 2 freq:10000
  mode.3_5 = mode;
  if (mode.3_5 != 0)
    goto <bb 3>;
  else
    goto <bb 4>;

  # BLOCK 3 freq:5000
  D.1402_6 = aa[1];
  D.1405_10 = aa[0];
  goto <bb 5>;

  # BLOCK 4 freq:5000
  D.1402_7 = bb[1];
  D.1405_11 = bb[0];

  # BLOCK 5 freq:10000
  D.1379_3 = D.1402_17 - D.1405_12;
  return D.1379_3;
}

fast()它们在同一个基本块中:

fast ()
{
  int D.1377;
  int D.1376;
  int D.1374;
  int D.1373;
  int mode.1;
  int D.1368;

  # BLOCK 2 freq:10000
  mode.1_2 = mode;
  if (mode.1_2 != 0)
    goto <bb 3>;
  else
    goto <bb 4>;

  # BLOCK 3 freq:3900
  D.1373_3 = aa[1];
  D.1374_4 = aa[0];
  D.1368_5 = D.1373_3 - D.1374_4;
  goto <bb 5>;

  # BLOCK 4 freq:6100
  D.1376_6 = bb[1];
  D.1377_7 = bb[0];
  D.1368_8 = D.1376_6 - D.1377_7;

  # BLOCK 5 freq:10000
  return D.1368_1;
}

GCC 依靠指令组合传递来处理这样的情况(即显然不是在窥视孔优化传递上)并且组合工作在基本块的范围内。这就是为什么减法和负载组合在一个 insn in 中fast(),甚至不考虑组合 in slow()

稍后,在基本块重新排序过程中,减法slow()被复制并移动到包含负载的基本块中。现在组合器有机会将负载和减法组合起来,但不幸的是,组合器通道不会再次运行(也许它不能在编译过程的后期运行,因为已经分配了硬寄存器和东西)。

于 2013-09-25T13:12:01.047 回答
9

对于为什么 GCC 无法按照您希望的方式优化代码,我没有答案,但我有办法重新组织您的代码以实现类似的性能。我建议您定义一个内联函数,该函数返回或者基于slow()而不需要分支:fast()aabbmode

inline int * xx () { static int *xx[] = { bb, aa }; return xx[!!mode]; }
inline int kwiky(int *xx) { return xx[1] - xx[0]; }
int kwik() { return kwiky(xx()); }

当使用 GCC 4.7 编译时-O3

    movl    mode, %edx
    xorl    %eax, %eax
    testl   %edx, %edx
    setne   %al
    movl    xx.1369(,%eax,4), %edx
    movl    4(%edx), %eax
    subl    (%edx), %eax
    ret

使用 的定义xx(),您可以重新定义auto0()auto1()如下所示:

inline int auto0() { return xx()[0]; }
inline int auto1() { return xx()[1]; }

而且,从这里,您应该看到slow()现在编译成与kwik().

于 2013-09-23T06:21:28.527 回答
1

您是否尝试过修改内部编译器参数(手册页中的 --param name=value)。这些不会随着任何优化级别而改变(有三个小例外)。

其中一些控制代码减少/重复数据删除。

对于本节中的一些优化,您可以阅读诸如«较大的值可以成倍地增加编译时间»之类的内容。

于 2013-09-28T23:54:07.463 回答