9

我有以下代码,并期望使用该exp()函数的内在版本。不幸的是,它不在 x64 构建中,因此比类似的 Win32(即 32 位构建)要慢:

#include "stdafx.h"
#include <cmath>
#include <intrin.h>
#include <iostream>

int main()
{
  const int NUM_ITERATIONS=10000000;
  double expNum=0.00001;
  double result=0.0;

  for (double i=0;i<NUM_ITERATIONS;++i)
  {
    result+=exp(expNum); // <-- The code of interest is here
    expNum+=0.00001;
  }

  // To prevent the above from getting optimized out...
  std::cout << result << '\n';
}

我正在为我的构建使用以下开关:

/Zi /nologo /W3 /WX-
/Ox /Ob2 /Oi /Ot /Oy /GL /D "WIN32" /D "NDEBUG" 
/D "_CONSOLE" /D "_UNICODE" /D "UNICODE" /Gm- 
/EHsc /GS /Gy /arch:SSE2 /fp:fast /Zc:wchar_t /Zc:forScope 
/Yu"StdAfx.h" /Fp"x64\Release\exp.pch" /FAcs /Fa"x64\Release\" 
/Fo"x64\Release\" /Fd"x64\Release\vc100.pdb" /Gd /errorReport:queue 

如您所见,我确实有/Oi/O2并且/fp:fast根据MSDN 关于内在函数的文章的要求。然而,尽管我努力调用标准库,exp()但在 x64 构建上的执行速度变慢了。

这是生成的程序集:

  for (double i=0;i<NUM_ITERATIONS;++i)
000000013F911030  movsd      xmm10,mmword ptr [__real@3ff0000000000000 (13F912248h)]  
000000013F911039  movapd     xmm8,xmm6  
000000013F91103E  movapd     xmm7,xmm9  
000000013F911043  movaps     xmmword ptr [rsp+20h],xmm11  
000000013F911049  movsd      xmm11,mmword ptr [__real@416312d000000000 (13F912240h)]  
  {
    result+=exp(expNum);
000000013F911052  movapd     xmm0,xmm7  
000000013F911056  call       exp (13F911A98h) // ***** exp lib call is here *****
000000013F91105B  addsd      xmm8,xmm10  
    expNum+=0.00001;
000000013F911060  addsd      xmm7,xmm9  
000000013F911065  comisd     xmm8,xmm11  
000000013F91106A  addsd      xmm6,xmm0  
000000013F91106E  jb         main+52h (13F911052h)  
  }

正如您在上面的程序集中看到的那样,有一个exp()函数调用。现在,让我们看看for使用 32 位构建为该循环生成的代码:

  for (double i=0;i<NUM_ITERATIONS;++i)
00101031  xorps       xmm1,xmm1  
00101034  rdtsc  
00101036  push        ebx  
00101037  push        esi  
00101038  movsd       mmword ptr [esp+1Ch],xmm0  
0010103E  movsd       xmm0,mmword ptr [__real@3ee4f8b588e368f1 (102188h)]  
00101046  push        edi  
00101047  mov         ebx,eax  
00101049  mov         dword ptr [esp+3Ch],edx  
0010104D  movsd       mmword ptr [esp+28h],xmm0  
00101053  movsd       mmword ptr [esp+30h],xmm1  
00101059  lea         esp,[esp]  
  {
    result+=exp(expNum);
00101060  call        __libm_sse2_exp (101EC0h) // <--- Quite different from 64-bit
00101065  addsd       xmm0,mmword ptr [esp+20h]  
0010106B  movsd       xmm1,mmword ptr [esp+30h]  
00101071  addsd       xmm1,mmword ptr [__real@3ff0000000000000 (102180h)]  
00101079  movsd       xmm2,mmword ptr [__real@416312d000000000 (102178h)]  
00101081  comisd      xmm2,xmm1  
00101085  movsd       mmword ptr [esp+20h],xmm0  
    expNum+=0.00001;
0010108B  movsd       xmm0,mmword ptr [esp+28h]  
00101091  addsd       xmm0,mmword ptr [__real@3ee4f8b588e368f1 (102188h)]  
00101099  movsd       mmword ptr [esp+28h],xmm0  
0010109F  movsd       mmword ptr [esp+30h],xmm1  
001010A5  ja          wmain+40h (101060h)  
  }

那里有更多代码,但速度更快。我在 3.3 GHz Nehalem-EP 主机上进行的时序测试产生了以下结果:

32 位:

对于循环体平均执行时间:34.849229 个周期/10.560373 ns

64 位:

对于循环体平均执行时间:45.845323 个周期/13.892522 ns

确实是非常奇怪的行为。为什么会这样?

更新:

我创建了Microsoft Connect 错误报告。随意支持它以从 Microsoft 本身获得关于浮点内在函数使用的权威答案,尤其是在 x64 代码中。

4

3 回答 3

5

在 x64 上,使用 SSE 执行浮点运算。这没有内置操作exp(),因此调用标准库是不可避免的,除非您编写自己的内联手动矢量化__m128d exp(__m128d)使用 SSE 的指数函数的最快实现)。

我想你所指的 MSDN 文章是用 32 位代码编写的,考虑到 8087 FP。

于 2012-04-10T20:30:30.267 回答
1

我认为微软提供 32 位 SSE2 exp() 的内在版本的唯一原因是标准调用约定。32 位调用约定要求将操作数压入主堆栈,并将结果返回到 FPU 堆栈的顶部寄存器中。如果您启用了 SSE2 代码生成,则返回值可能会从 FPU 堆栈弹出到内存中,然后从该位置加载到 SSE2 寄存器中,以便对结果进行任何数学运算。显然,在 SSE2 寄存器中传递操作数并在 SSE2 寄存器中返回结果会更快。这就是 __libm_sse2_exp() 所做的。在 64 位代码中,标准调用约定传递操作数并在 SSE2 寄存器中返回结果,因此具有内在版本没有优势。

exp() 的 32 位 SSE2 和 64 位实现之间的性能差异的原因是微软在这两种实现中使用了不同的算法。我不知道他们为什么要这样做,并且它们会为某些操作数产生不同的结果(相差 1ulp)。

于 2013-05-24T13:26:47.560 回答
0

编辑我想在这个讨论中添加指向AMD 的 x64 指令集手册Intel 的参考的链接。

在初始检查中,应该有一种方法可以使用 F2XM1 来计算指数。但是,它在 x87 指令集中,隐藏在 x64 模式中。

如VirtualDub 讨论板上的帖子所述,明确使用 MMX/x87 是有希望的。 而且,这就是在 VC++ 中实际编写 asm 的方法。

于 2012-04-10T20:26:58.343 回答