1

有一段代码让我感到困惑,它在 windows 中运行!这是代码:

#define point_float2uint(x) *((unsigned int *)&x)


float divide_1000(float y)
{
    float v = y / 1000.0f;
    return v;
}

float divide_1000(int y)
{
    float v = float(y) / 1000.0f;
    return v;
}


void float_test(void)
{
    int num[5] = {67975500, 67251500, 67540620, 69435500, 70171500};
    for (int i = 0; i < 5; ++i)
    {
        int a = num[i];
        float af_f = divide_1000(float(a));
        float af_i = divide_1000((a));
        printf("src num:%d,  af_f:%f, %x, af_i:%f, %x\n", num[i], af_f, point_float2uint(af_f), af_i, point_float2uint(af_i));
    }
}

这是由vs2005编译的输出:

src num:67975500,  af_f:67975.507813, 4784c3c1, af_i:67975.500000, 4784c3c0
src num:67251500,  af_f:67251.507813, 478359c1, af_i:67251.500000, 478359c0
src num:67540620,  af_f:67540.625000, 4783ea50, af_i:67540.617188, 4783ea4f
src num:69435500,  af_f:69435.507813, 47879dc1, af_i:69435.500000, 47879dc0
src num:70171500,  af_f:70171.507813, 47890dc1, af_i:70171.500000, 47890dc0

问题是:为什么我使用“ divide_1000 ”,在 Windows 中得到不同的结果?这不是我想要的!而且我发现并非所有整数的结果都不同,但有些就像上面的代码一样。

这是由 debian 中的 gcc4.4.5 编译的输出:

src num:67975500,  af_f:67975.507812, 4784c3c1, af_i:67975.507812, 4784c3c1
src num:67251500,  af_f:67251.507812, 478359c1, af_i:67251.507812, 478359c1
src num:67540620,  af_f:67540.625000, 4783ea50, af_i:67540.625000, 4783ea50
src num:69435500,  af_f:69435.507812, 47879dc1, af_i:69435.507812, 47879dc1
src num:70171500,  af_f:70171.507812, 47890dc1, af_i:70171.507812, 47890dc1

我在使用不同的函数“ divide_1000 ”时得到了相同的结果。这就是我想要的。

4

1 回答 1

3

这里涉及很多影响结果的代码生成设置。当使用“经典”FPU 指令进行浮点计算时,您报告的差异在默认浮点模型(即“精确”模型)下的非优化代码中是可观察到的。

编译器从字面上翻译第一个调用:原始整数值首先转换为float- 4 字节浮点值 - 存储在内存中(作为函数参数)。此转换将值四舍五入为+6.7975504e+7,这已经不精确。稍后,该 float值从第一个函数内的内存中读取并用于进一步计算。

第二次调用将一个int值传递给函数,该函数直接加载到高精度 FPU 寄存器中并用于进一步计算。即使您在第二个函数内部指定了从intto的显式转换float,编译器还是决定忽略您的请求。该值永远不会从字面上转换为float,这意味着上述精度损失永远不会发生。

这就是导致您观察到的差异的原因。

如果您将第二个函数重写为

float divide_1000(int y)
{
    float fy = y;
    float v = fy / 1000.0f;
    return v;
}

即添加一个额外的步骤,将float值保存到内存中的指定位置,编译器将在非优化代码中执行该步骤。这将导致结果变得相同。

同样,以上内容适用于未经优化编译的代码,此时编译器通常会尝试非常接近地翻译所有语句(但并不总是准确)。在优化的代码中,编译器消除了两种情况下的“不必要的”中间转换float和所有“不必要的”中间内存存储,产生相同的结果。

您可能还想尝试其他浮点模型(即“严格”和“快速”),看看它如何影响结果。这些浮点模型专门用于处理您观察到的问题。

如果您更改编译器的代码生成设置并使其使用 SSE 指令进行浮点运算,结果也可能会发生变化(在我的实验中,当使用 SSE2 指令集而不是 FPU 指令时差异会消失)。

于 2013-07-03T07:45:38.853 回答