我写了很多向量化循环,所以 1 个常见的成语是
volatile int dummy[1<<10];
for (int64_t i = 0; i + 16 <= argc; i+= 16) // process all elements with whole vector
{
int x = dummy[i];
}
// handle remainder (hopefully with SIMD too)
但是生成的机器代码比我想要的多1条指令(使用gcc 4.9)
.L3:
leaq -16(%rax), %rdx
addq $16, %rax
cmpq %rcx, %rax
movl -120(%rsp,%rdx,4), %edx
jbe .L3
如果我将代码更改为for (int64_t i = 0; i <= argc - 16; i+= 16)
,那么“额外”指令就消失了:
.L2:
movl -120(%rsp,%rax,4), %ecx
addq $16, %rax
cmpq %rdx, %rax
jbe .L2
但为什么会有差异?我在想可能是由于循环不变量,但太模糊了。然后我注意到在 5 指令情况下,增量是在加载之前完成的,由于 x86 的破坏性 2 操作数指令,这将需要额外的 mov。所以另一种解释可能是它是针对 1 条额外指令的交易指令并行性。
虽然看起来几乎没有任何性能差异,但有人可以解释这个谜团(最好谁知道编译器转换)?
理想情况下,我想保留 i + 16 <= size 形式,因为它具有更直观的含义(向量的最后一个元素不会超出范围)