这是我第一次发帖。
所以这是我的问题,我不明白下面的例子。
二进制表示:01000000011000000000000000000000
=+(1.11)base 2x 2^(128-127)
<-所有问题都参考这一行。
•=+(1.11)base 2 x2^1
•=+(11.1) base 2
•=+(1x21+1x20+1x2-1)=(3.5) base 10
问题:128-127 来自哪里?
为什么是1.11?
这是我第一次发帖。
所以这是我的问题,我不明白下面的例子。
二进制表示:01000000011000000000000000000000
=+(1.11)base 2x 2^(128-127)
<-所有问题都参考这一行。
•=+(1.11)base 2 x2^1
•=+(11.1) base 2
•=+(1x21+1x20+1x2-1)=(3.5) base 10
问题:128-127 来自哪里?
为什么是1.11?
在单精度浮点格式中,指数偏差为常数 127。您给出的特定位模式将浮点数编码为 128 (1000000) 作为指数:
0 10000000 11000000000000000000000
s exponent fraction
首先看符号(s)位,它是0。所以它是一个正数。
然后从指数中减去指数偏差,这就是 128 - 127 的来源。这给了1
.
然后我们开始将分数中的位相加(11000000000000000000000
):
1 + 0.5 + 0.25 + 0 + 0 + 0....
给 1.75
现在我们有 1(sign) * 2^1(exponent) * 1.75(fraction) = 2 * 1.75 = 3.5
另一个例子:
00111110101010101010101010101011
分解它:
0 01111101 01010101010101010101011
s exponent fraction
符号为 0,所以它又是正数。
125 (01111101) 指数,从中减去指数偏差:125 - 127 = -2
解码分数01010101010101010101011
1 + 0 + 0.25 + 0 + 0.0625 + 0 + 0.015625 + 0 + 0.00390625 + 0 + 0.0009765625 + 0 + 0.000244140625 + 0 + 0.00006103515625 + 0 + 0.0000152587890625 + 0 + 0.000003814697265625 + 0 + 9.5367431640625e-7 + 0 + 2.384185791015625e-7 + 1.1920928955078125e-7
这给了1.3333333730697632
左右。
现在把它们加在一起:
1(sign) * 2^-2(exponent) * 1.3333333730697632(fraction) = 0.25 * 1.3333333730697632 = 0.3333333432674408 =~ 0.3333333
首先,您要做的第一件事是分离字段(给定 IEEE 754 32 位浮点编码):
符号位:0
指数位:10000000
尾数位:11000000000000000000000
(128 - 127) 是通过减去指数偏差来计算指数。
从浮点数转换为十进制数时,减去指数偏差。当以另一种方式转换时,您添加它。指数偏差计算如下:
2^(k−1) − 1 其中k是指数字段中的位数。
2^(8 - 1) - 1 = 127
尾数为 1.11,以 2 为底(二进制)。尾数由一个分数组成,并有一个隐含的前导 1。因此,在尾数位中有 11000...,你有一个隐含的前导一个给你 1.11
如果尾数位为 1011,则您的分数值为 1.011
本教程应该让您更好地理解浮点数:
http://www.tfinley.net/notes/cps104/floating.html
二进制表示分为 3 个部分:1 个符号位、8 个指数位和 23 个尾数位。
0|10000000|11000000000000000000000
sign|exponent| mantissa
符号位为零,表示它是一个正数。指数 (128) 比定义的实际值大 127,解析为 1(即 128 - 127)。尾数是 1.11(前导 1 是隐含的,同样根据定义)。因此,我们有
01000000011000000000000000000000
= +(1.11)base 2 x 2^(128-127)
= (2^0 + 2^-1 + 2^-2) x 2^1
= 2^1 + 2^0 + 2^-1
= 2 + 1 + 0.5
= 3.5
我认为指数中有偏差(+127)的理由是:
如果将浮点数解释为 32 位整数,则不会更改顺序。
那是
float a,b;
assert((a < b) == ((int)(a) < (int)(b)));
因此,您必须通过减去 127 来消除指数的偏差...
编辑:不等式适用于常规浮点数,但不适用于 NaN