11

我希望进一步了解 SSE2 的功能,并想知道是否可以制作一个支持加法、减法、异或和乘法的 128 位宽整数?

4

1 回答 1

10

SIMD 旨在同时处理多个小值,因此不会有任何结转到更高的单元,您必须手动执行此操作。在 SSE2 中没有进位标志,但您可以像这样轻松carry = sum < a计算carry = sum < b。更糟糕的是,SSE2 也没有 64 位比较,因此您必须使用类似这里的解决方法

这是基于上述想法的未经测试、未经优化的 C 代码:

inline bool lessthan(__m128i a, __m128i b){
    a = _mm_xor_si128(a, _mm_set1_epi32(0x80000000));
    b = _mm_xor_si128(b, _mm_set1_epi32(0x80000000));
    __m128i t = _mm_cmplt_epi32(a, b);
    __m128i u = _mm_cmpgt_epi32(a, b);
    __m128i z = _mm_or_si128(t, _mm_shuffle_epi32(t, 177));
    z = _mm_andnot_si128(_mm_shuffle_epi32(u, 245),z);
    return _mm_cvtsi128_si32(z) & 1;
}

inline __m128i addi128(__m128i a, __m128i b)
{
    __m128i sum = _mm_add_epi64(a, b);
    __m128i mask = _mm_set1_epi64(0x8000000000000000);    
    if (lessthan(_mm_xor_si128(mask, sum), _mm_xor_si128(mask, a)))
    {
        __m128i ONE = _mm_setr_epi64(0, 1);
        sum = _mm_add_epi64(sum, ONE);
    }

    return sum;
}

如您所见,代码需要更多指令,即使经过优化,它仍可能比 x86_64 中的简单 2 ADD/ADC 对(或 x86 中的 4 条指令)长得多


但是,如果您要并行添加多个 128 位整数, SSE2 会有所帮助。但是,您需要正确排列值的高位和低位部分,以便我们可以一次添加所有低位部分,一次添加所有高位部分

也可以看看

于 2013-09-07T13:20:12.773 回答