c - 模 2*Pi 使用 SSE/SSE2

Question

我对使用 SSE 仍然很陌生，并且正在尝试为2*Pi订单的双精度输入实现模数1e8（其结果将被输入到一些向量化的三角计算中）。

我目前对代码的尝试是基于以下想法mod(x, 2*Pi) = x - floor(x/(2*Pi))*2*Pi：

#define _PD_CONST(Name, Val)                                            \
static const double _pd_##Name[2] __attribute__((aligned(16))) = { Val, Val }  

_PD_CONST(2Pi, 6.283185307179586);  /* = 2*pi  */  
_PD_CONST(recip_2Pi, 0.159154943091895); /* = 1/(2*pi)  */

void vec_mod_2pi(const double * vec, int Size, double * modAns)
{
    __m128d sse_a, sse_b, sse_c;
    int i;
    int k = 0;
    double t = 0;

    unsigned int initial_mode;
    initial_mode = _MM_GET_ROUNDING_MODE();

    _MM_SET_ROUNDING_MODE(_MM_ROUND_DOWN);

    for (i = 0; i < Size; i += 2)
    {
        sse_a = _mm_loadu_pd(vec+i);
        sse_b = _mm_mul_pd( _mm_cvtepi32_pd( _mm_cvtpd_epi32( _mm_mul_pd(sse_a, *(__m128d*)_pd_recip_2Pi) ) ), *(__m128d*)_pd_2Pi);
        sse_c = _mm_sub_pd(sse_a, sse_b);
        _mm_storeu_pd(modAns+i,sse_c);
    }

    k = i-2;
    for (i = 0; i < Size%2; i++)
    {
        t = (double)((int)(vec[k+i] * 0.159154943091895)) * 6.283185307179586;
        modAns[k+i] = vec[k+i] - t;
    }

    _MM_SET_ROUNDING_MODE(initial_mode);
}

不幸的是，目前这也返回了很多NaN答案1.128e119（有些超出了我的目标0->的范围2*Pi！）。我怀疑我出错的地方是我试图用来执行floor.

谁能建议我哪里出了问题以及如何改进它？

PS对该代码的格式感到抱歉，这是我第一次在这里发布问题，似乎无法让它在代码块中给我空行以使其可读。

score 7 · Accepted Answer

如果您想要任何类型的准确性，那么简单的算法就非常糟糕。有关准确的范围缩减算法，请参见Ng 等人，ARGUMENT REDUCTION FOR HUGE ARGUMENTS：Good to the Last Bit（现在可通过 Wayback Machine 获得：2012-12-24）

score 1 · Accepted Answer

对于较大的参数，通常使用Hayne-Panek 算法。但是，Hayne-Panek 的论文很难阅读，我建议您查看Handbook of Floating-Point Arithmetic 的第 11 章以获得更易于理解的解释。

c - 模 2*Pi 使用 SSE/SSE2

2 回答 2

Related

Reference