2

我正在阅读这本书Computer Systems: A Programmer's Perspective,我正在尝试使用 Intel Core i7 在我的 Macbook Pro 上执行它提供的代码。

但是有些代码并没有完全按照书中的建议运行。

这个 C 示例应该证明相同的浮点数在存储在内存中时与存储在寄存器中时会有所不同。

#include<stdio.h>

double recip( int denom )
{
  return 1.0/(double) denom;
}

void do_nothing(){} /* to  clear the register */

void fcomp( int denom)
{
  double r1, r2;
  int t1, t2;

  r1 = recip(denom); /* stored in memory */
  r2 = recip(denom); /* stored in register */
  t1 = r1 == r2;     /* Compares register to memory */
  do_nothing();      /* Forces register save to memory */
  t2 = r1 == r2;     /* Compares memory to memory */
  printf("test1 t1: r1 %f %c= r2 %f\n", r1, t1 ? '=' : '!', r2);
  printf("test1 t1: r2 %f %c= r2 %f\n", r1, t2 ? '=' : '!', r2);
}

main(){
  int demon = 10;
  fcomp(demon);
}

与带有“O2”选项的 gcc 相比,本书建议的结果应该是:

test1 t1: r1 0.100000 != r2 0.100000
test2 t1: r1 0.100000 == r2 0.100000

但是,我得到了两个“==”,不知道为什么。对本书的环境设置有什么建议吗?非常感谢。

4

2 回答 2

2

书中的示例(很可能)针对 Intel CPU 中 x87 FPU 的特定属性:这种 FPU 类型的主要属性是它仅提供具有(可见)80 位精度的寄存器。所以 32 或 64 位浮点数在加载到 FPU 寄存器时会转换为 80 位浮点数。此外,通常算术运算是以全精度执行的,所以如果一个值保存在 FPU 寄存器中以供以后使用,它不会像复制到内存然后加载的值那样四舍五入到 32 或 64 位稍后再回来。因此,是否将值保存在寄存器中会有所不同。

但是,Mac OS X(我想你在 Macbook 上使用)没有使用 x87 FPU,它使用 SSE 单元:SSE 提供 32 位和 64 位浮点寄存器和操作,因此如果一个值没有区别保存在寄存器中或存储在内存中关于其精度。每次操作后,结果总是四舍五入。这通常也适用于 Windows 和 Linux 上的 64 位可执行文件。

在例如 32 位、Linux 或 Windows 上,情况就不同了。x87 或 SSE 单元的使用取决于环境,通常使用 x87 FPU 是因为 32 位机器可能不支持所需的 SSE2 指令,尽管最后一个没有 SSE2 的 CPU 是大约 10 年前构建的。

于 2013-10-12T11:51:51.950 回答
0

答案不多,但我对此进行了一些研究。我找到了这个 fcomp.c http://csapp.cs.cmu.edu/public/1e/ics/code/data/fcomp.c,看起来它可能来自你书中的同一个例子,但你的版本是只包含第一个测试。无论如何,我使用了各种不同的 gcc 版本和 -m32 与 -m64 并发现 test1(与您的测试相同)总是相等的,至少对于 i386 和 x86_64 而言。

然而,有一个测试(test2)似乎表现出依赖于架构的行为:

void test2(int denom)
{
  double r1;
  int t1;
  r1 = recip(denom);             /* Default: register, Forced store: memory */
  t1 = r1 == 1.0/(double) denom; /* Compares register or memory to register */
  printf("test2 t1: r1 %f %c= 1.0/10.0\n", r1, t1 ? '=' : '!');  
  printf("A long double on this machine requires %d bytes\n", sizeof(long double));
}

(test2() 被称为 10 的恶魔)

编译时gcc -m64 -o fcomp fcomp.c我得到这个输出:

test2 t1: r1 0.100000 == 1.0/10.0
A long double on this machine requires 16 bytes

而在编译时gcc -m32 -o fcomp fcomp.c我得到这个输出:

test2 t1: r1 0.100000 != 1.0/10.0
A long double on this machine requires 12 bytes

作为记录,我使用 gcc 3.4.6 和 4.1.2 都得到了这些结果。

无论我使用什么编译器/架构,所有其他测试都相同。

于 2013-10-11T17:20:16.357 回答