4

我有两个近 1000 大小的整数向量,我要做的是检查这两个向量的平方整数之和是否相同。所以我写了以下代码:

std::vector<int> array1;
std::vector<int> array2;
... // initialize array1 and array2, and in the experiment all elements
    // in the two vectors are the same but the sequence of elements may be different.
    // For example: array1={1001, 2002, 3003, ....} 
   //               array2={2002, 3003, 1001, ....}
assert(array1.size() == array2.size());
float sum_array1 = 0;
float sum_array2 = 0;
for(int i=0; i<array1.size(); i++)
       sum_array1 +=array1[i]*array1[i];
for(int i=0; i<array2.size(); i++)
       sum_array2 +=array2[i]*array2[i];

我希望sum_array1应该等于sum_array2,但实际上在我的应用程序中我发现它们是不同sum_array1 = 1.2868639e+009sum_array2 = 1.2868655e+009。我接下来所做的是更改类型sum_array1sum_array2双重类型,如以下代码所示:

 double sum_array1 = 0;
    double sum_array2 = 0;
    for(int i=0; i<array1.size(); i++)
           sum_array1 +=array1[i]*array1[i];
    for(int i=0; i<array2.size(); i++)
           sum_array2 +=array2[i]*array2[i];

这个时间 sum_array1等于sum_array2 sum_array1=sum_array2=1286862225.0000000。我的问题是为什么它会发生。谢谢。

4

4 回答 4

5

浮点值的大小是有限的,因此只能以有限的精度表示实数值。当您需要比它们存储的精度更高的精度时,这会导致舍入错误。

特别是,当将一个小数(例如您要求和的数)添加到一个大得多的数(例如您的累加器)时,与小数相比,精度损失可能会很大,从而产生很大的误差;并且错误将根据顺序而有所不同。

通常,float具有 24 位精度,对应于大约 7 个小数位。您的累加器需要 10 位小数(大约 30 位),因此您会遇到这种精度损失。通常,double有 53 位(大约 16 位小数),因此您的结果可以准确表示。

64 位整数可能是这里的最佳选择,因为所有输入都是整数。使用整数可以避免精度损失,但如果输入太多或太大,则会引入溢出的危险。

如果您不能使用足够宽的累加器,为了最大限度地减少错误,您可以对输入进行排序,以便首先累加最小值;或者您可以使用更复杂的方法,例如Kahan summation

于 2013-09-06T16:00:54.630 回答
4

在两个循环中,您添加相同的数字但顺序不同。一旦总和超过可以由 a 精确表示的整数值float,您将开始失去精度,并且总和最终可能会略有不同。

一个实验供你尝试:

float n = 0;
while (n != n + 1)
    n = n + 1;
//Will this terminate? If so, what is n now?

如果你运行它,你会发现循环实际上终止了——这看起来完全违反直觉,但根据 IEEE单精度浮点运算的定义,这是正确的行为。

您可以尝试相同的实验,替换floatdouble. 您将看到同样奇怪的行为,但这次循环将在n更大时终止,因为 IEEE双精度浮点数可以实现更高的精度。

于 2013-09-06T15:56:14.370 回答
3

浮点表示(通常 IEEE754)使用有限位来表示小数,因此对浮点数的运算会导致精度损失

通常,与常识相反,比较之类的a == ((a+1)-1)结果是falseifa是一个浮点变量。

解决方案:

要比较两个浮点数,您必须使用一种“精度损失范围”。也就是说,如果一个数字与其他数字的差异小于该precision-loss-range,则您认为该数字是相等的:

//Supposing we can overload operator== for floats
bool operator==( float lhs , float rhs)
{
    float epsilon = std::numeric_limits<float>.epsilon();

    return std::abs(lhs-rhs) < epsilon;
}
于 2013-09-06T15:49:10.187 回答
2

Adouble具有更多位,因此比 a 拥有更多信息float。当您向浮点数添加值时,它最终会在不同时间对 sum_array1 和 sum_array2 的信息进行四舍五入。

根据输入值,使用双精度浮点数时可能会遇到相同的问题(如果值足够大)。

通过网络搜索“您需要了解的有关浮点数的所有信息”,您可以很好地了解这些限制,以及如何最好地处理这些限制。

于 2013-09-06T15:52:28.357 回答