c++ - float128 和 double-double 算术

Question

我在维基百科中看到，实现四精度的方法是使用双精度运算，即使它的位精度不完全相同：https ://en.wikipedia.org/wiki/Quadruple-precision_floating-point_format

在这种情况下，我们使用两个双精度来存储值。因此，我们进行了两次运算来计算结果，每个运算结果的两倍。

在这种情况下，我们可以在每个双精度数上出现舍入错误，或者它们是避免这种情况的机制？

score 7 · Accepted Answer

“在这种情况下，我们使用两个 double 来存储值。所以我们每次需要做两次操作。”</p>

这不是双双算术的工作方式。您应该期望在 6 到 20 个 double 操作中实现一个 double-double 操作，具体取决于正在实现的实际操作、融合乘加操作的可用性、一个操作数大于另一个操作数的假设…… </p>

例如，当 FMA 指令不可用时，这里是双双乘法的一种实现，取自CRlibm：

#define Mul22(zh,zl,xh,xl,yh,yl)                      \
{                                                     \
double mh, ml;                                        \
                              \
  const double c = 134217729.;                \
  double up, u1, u2, vp, v1, v2;              \
                              \
  up = (xh)*c;        vp = (yh)*c;            \
  u1 = ((xh)-up)+up;  v1 = ((yh)-vp)+vp;          \
  u2 = (xh)-u1;       v2 = (yh)-v1;                   \
                              \
  mh = (xh)*(yh);                     \
  ml = (((u1*v1-mh)+(u1*v2))+(u2*v1))+(u2*v2);        \
                              \
  ml += (xh)*(yl) + (xl)*(yh);                \
  *zh = mh+ml;                        \
  *zl = mh - (*zh) + ml;                              \
}

仅前 8 次操作就是为了将操作数中的每个 double 精确地分成两半，这样每一边的一半可以与另一边的一半相乘，得到的结果正好是 a double。计算u1*v1, u1*v2, ... 正是这样做的。

mh在和中获得的值ml可以重叠，因此最后 3 个操作用于将结果重新归一化为两个浮点数的总和。

在这种情况下，我们可以在每个双精度数上出现舍入错误，或者它们是避免这种情况的机制？

正如评论所说：

/*
 * computes double-double multiplication: zh+zl = (xh+xl) *  (yh+yl)
 * relative error is smaller than 2^-102
 */

您可以在Handbook of Floating-Point Arithmetic中找到用于实现这些结果的所有机制。

c++ - float128 和 double-double 算术

1 回答 1

Related

Reference