6

我写了很多向量化循环,所以 1 个常见的成语是

volatile int dummy[1<<10];
for (int64_t i = 0; i + 16 <= argc; i+= 16)   // process all elements with whole vector
{
  int x = dummy[i];
}
// handle remainder (hopefully with SIMD too)

但是生成的机器代码比我想要的多1条指令(使用gcc 4.9)

.L3:
        leaq    -16(%rax), %rdx
        addq    $16, %rax
        cmpq    %rcx, %rax
        movl    -120(%rsp,%rdx,4), %edx
        jbe     .L3

如果我将代码更改为for (int64_t i = 0; i <= argc - 16; i+= 16),那么“额外”指令就消失了:

.L2:
        movl    -120(%rsp,%rax,4), %ecx
        addq    $16, %rax
        cmpq    %rdx, %rax
        jbe     .L2

但为什么会有差异?我在想可能是由于循环不变量,但太模糊了。然后我注意到在 5 指令情况下,增量是在加载之前完成的,由于 x86 的破坏性 2 操作数指令,这将需要额外的 mov。所以另一种解释可能是它是针对 1 条额外指令的交易指令并行性。

虽然看起来几乎没有任何性能差异,但有人可以解释这个谜团(最好谁知道编译器转换)?

理想情况下,我想保留 i + 16 <= size 形式,因为它具有更直观的含义(向量的最后一个元素不会超出范围)

4

1 回答 1

8

如果argc低于 -2147483632 且i低于 2147483632,则表达式i+16 <= argc需要产生算术正确的结果,而表达式 andi<argc-16不会。在这种极端情况下需要给出算术正确的结果会阻止编译器优化前一个表达式以匹配后者。

于 2014-05-09T23:11:15.047 回答