c++ - x86 汇编指令优化

Question

我正在尝试优化循环中的指令块，称为数千次，这是我算法的瓶颈。

此代码块计算 N 个矩阵 3x3（iA 数组）与 N 个向量 3（iV 数组）的乘法，并将 N 个结果存储在 oV 数组中。（N 不固定，通常在 3000 到 15000 之间）

每行矩阵和向量都是 128 位对齐（4 个浮点数）以利用 SSE 优化（忽略第 4 个浮点值）。

C++ 代码：

  __m128* ip = (__m128*)iV;
  __m128* op = (__m128*)oV;
  __m128* A = (__m128*)iA;

  __m128 res1, res2, res3;
  int i;

  for (i=0; i<N; i++)
  {
    res1 = _mm_dp_ps(*A++, *ip, 0x71);
    res2 = _mm_dp_ps(*A++, *ip, 0x72);
    res3 = _mm_dp_ps(*A++, *ip++, 0x74);

    *op++ = _mm_or_ps(res1, _mm_or_ps(res2, res3));
  }

编译器生成这些指令：

000007FEE7DD4FE0  movaps      xmm2,xmmword ptr [rsi]               //move "ip" in register
000007FEE7DD4FE3  movaps      xmm1,xmmword ptr [rdi+10h]           //move second line of A in register
000007FEE7DD4FE7  movaps      xmm0,xmmword ptr [rdi+20h]           //move third line of A in register
000007FEE7DD4FEB  inc         r11d                                 //i++
000007FEE7DD4FEE  add         rbp,10h                              //op++
000007FEE7DD4FF2  add         rsi,10h                              //ip++
000007FEE7DD4FF6  dpps        xmm0,xmm2,74h                        //dot product of 3rd line of A against ip
000007FEE7DD4FFC  dpps        xmm1,xmm2,72h                        //dot product of 2nd line of A against ip
000007FEE7DD5002  orps        xmm0,xmm1                            //"merge" of the result of the two dot products
000007FEE7DD5005  movaps      xmm3,xmmword ptr [rdi]               //move first line of A in register
000007FEE7DD5008  add         rdi,30h                              //A+=3
000007FEE7DD500C  dpps        xmm3,xmm2,71h                        //dot product of 1st line of A against ip
000007FEE7DD5012  orps        xmm0,xmm3                            //"merge" of the result
000007FEE7DD5015  movaps      xmmword ptr [rbp-10h],xmm0           //move result in memory (op)
000007FEE7DD5019  cmp         r11d,dword ptr [rbx+28h]             //compare i
000007FEE7DD501D  jl          MyFunction+370h (7FEE7DD4FE0h)       //loop

我对低级优化不是很熟悉，所以问题是：如果我自己编写汇编代码，你会看到一些可能的优化吗？

例如，如果我改变它会运行得更快：

add         rbp,10h
movaps      xmmword ptr [rbp-10h],xmm0

经过

movaps      xmmword ptr [rbp],xmm0
add         rbp,10h

我还读到 ADD 指令比 INC 快...

score 3 · Accepted Answer

使用偏移量计算间接地址，例如rbp-10非常便宜，因为在“有效地址计算”单元中存在用于此类计算的特殊硬件[我认为它有一个不同的名称，但想不到或没有任何成功谷歌找到它的名字]。

add rbp,10h但是， and之间存在依赖关系[rbp-10h]，这可能会导致问题 - 但在这种特殊情况下我对此表示怀疑。在您的情况下，使用它和使用它之间有很长的距离rbp-10，所以这不是问题。编译器可能把它放得那么远，因为那时它是“免费的”，因为处理器将等待数据从外部进入之前读取的 xmm 寄存器。换句话说，我们可以在循环开始的读取xmm0,xmm1和使用,的指令之间坚持的任何工作都是有益的，因为处理器将等待数据“到达”，然后才能计算结果。xmm2dppsxmm0xmm1xmm2dpps

score 2 · Accepted Answer

我做了很多 x86 汇编优化，我可以告诉你这是一次很棒的学习经历。它教会了我很多关于编译器如何工作的知识，我学到的最重要的事情是编译器通常非常擅长它们的工作。我知道这是一个轻率的评论，但这是真的......

我还了解到，您所做的优化可能会对一个处理器系列产生积极影响，而对另一个处理器系列产生负面影响。流水线、分支预测和处理器缓存之类的东西发挥着巨大的作用......所以除非你的目标是一个非常具体的硬件配置，否则要小心关于你所做的改进的假设。

对于您关于重新排序添加以删除rbp-10h偏移量的具体问题......它看起来像是一个明显的改进，您必须通过阅读说明手册来验证，但我猜-10h内存偏移量在该指令中是免费的。并且移动add可能会抛出流水线指令并实际上导致时钟周期丢失。你必须进行实验。

score 1 · Accepted Answer

您可以对上述代码做一些事情来改进它。通常，在值被更改后使用它会导致处理器在等待结果时停止。所以这些行会受到惩罚：-

add         rbp,10h
movaps      xmmword ptr [rbp-10h],xmm0

但在这两行上方的代码片段中，相距甚远，所以这不是真正的问题。正如其他人已经说过rbp-10h的那样，地址计算硬件处理它是“免费的”。

您可以向上移动movaps xmm3,xmmword ptr [rdi]一行，也可以重新排列其他几行。

值得吗？

不

你会很幸运地看到任何真正的性能提升，因为你的算法是

<blink> memory bandwidth limited </blink>*

这意味着将数据从 RAM 读取到 CPU 所花费的时间大于 CPU 进行处理所花费的时间。在最坏的情况下，读取内存地址可能涉及页面错误和磁盘读取。这些prefetch指令也无济于事，它被称为“流式 SIMD 扩展”，因为它经过优化以将数据流式传输到 CPU（内存接口可以处理四个单独的流 IIRC）。

如果您对一小组数据（可能是 FFT）进行大量计算，那么您可以从手工制作汇编程序中获得很多收益。但是您的算法非常简单，因此 CPU 大部分时间都在空闲等待数据到达。如果您知道 RAM 的速度，您可以计算出算法的最大吞吐量，并使用它与它当前实现的值进行比较（尽管您永远不会达到最大理论吞吐量）。

您可以采取一些措施来最大程度地减少内存停滞，这是一种更高级别的更改，而不是摆弄单个指令（通常，优化算法会获得更好的结果）。最简单的是双缓冲输入数据。将寄存器组分成两组（可以在这里做，因为您只使用四个 SIMD 寄存器）：-

  load set 1
mainloop:
  load set 2
  do processing on set 1
  save set 1 result
  load set 1
  do processing on set 2
  save set 2 result
  goto mainloop

希望这给了你一些想法。即使它没有走得更快，它仍然是一个有趣的练习，你可以从中学到很多东西。

RIP 闪烁。

c++ - x86 汇编指令优化

3 回答 3

Related

Reference