c - C 内在函数、SSE2 点积和 gcc -O3 生成的程序集

Question

我需要使用 SSE2 编写一个点积（没有 _mm_dp_ps 也没有 _mm_hadd_ps）：

#include <xmmintrin.h>

inline __m128 sse_dot4(__m128 a, __m128 b)
{
    const __m128 mult = _mm_mul_ps(a, b);
    const __m128 shuf1 = _mm_shuffle_ps(mult, mult, _MM_SHUFFLE(0, 3, 2, 1));
    const __m128 shuf2 = _mm_shuffle_ps(mult,mult, _MM_SHUFFLE(1, 0, 3, 2));
    const __m128 shuf3 = _mm_shuffle_ps(mult,mult, _MM_SHUFFLE(2, 1, 0, 3));

    return _mm_add_ss(_mm_add_ss(_mm_add_ss(mult, shuf1), shuf2), shuf3);
}

但我用 gcc 4.9 (experimental) -O3 查看了生成的汇编程序，我得到：

    mulps   %xmm1, %xmm0
    movaps  %xmm0, %xmm3         //These lines
    movaps  %xmm0, %xmm2         //have no use
    movaps  %xmm0, %xmm1         //isn't it ?
    shufps  $57, %xmm0, %xmm3
    shufps  $78, %xmm0, %xmm2
    shufps  $147, %xmm0, %xmm1
    addss   %xmm3, %xmm0
    addss   %xmm2, %xmm0
    addss   %xmm1, %xmm0
    ret

我想知道为什么 gcc 在 xmm1、2 和 3 中复制 xmm0 ......这是我使用标志得到的代码：-march=native（看起来更好）

    vmulps  %xmm1, %xmm0, %xmm1
    vshufps $78, %xmm1, %xmm1, %xmm2
    vshufps $57, %xmm1, %xmm1, %xmm3
    vshufps $147, %xmm1, %xmm1, %xmm0
    vaddss  %xmm3, %xmm1, %xmm1
    vaddss  %xmm2, %xmm1, %xmm1
    vaddss  %xmm0, %xmm1, %xmm0
    ret

score 5 · Accepted Answer

这是一个仅使用原始 SSE 指令的点积，它还可以在每个元素之间调整结果：

inline __m128 sse_dot4(__m128 v0, __m128 v1)
{
    v0 = _mm_mul_ps(v0, v1);

    v1 = _mm_shuffle_ps(v0, v0, _MM_SHUFFLE(2, 3, 0, 1));
    v0 = _mm_add_ps(v0, v1);
    v1 = _mm_shuffle_ps(v0, v0, _MM_SHUFFLE(0, 1, 2, 3));
    v0 = _mm_add_ps(v0, v1);

    return v0;
}

这是 5 个 SIMD 指令（而不是 7 个），但没有真正的机会隐藏延迟。任何元素都将保存结果，例如，float f = _mm_cvtss_f32(sse_dot4(a, b);

该haddps指令有相当可怕的延迟。使用 SSE3：

inline __m128 sse_dot4(__m128 v0, __m128 v1)
{
    v0 = _mm_mul_ps(v0, v1);

    v0 = _mm_hadd_ps(v0, v0);
    v0 = _mm_hadd_ps(v0, v0);

    return v0;
}

这可能会更慢，尽管它只有 3 个 SIMD 指令。如果您一次可以做多个点积，则可以在第一种情况下交错指令。Shuffle 在最近的微架构上非常快。

score 4 · Accepted Answer

您粘贴的第一个清单仅适用于 SSE 架构。大多数 SSE 指令仅支持两种操作数语法：指令格式为a = a OP b.

在您的代码中，a是mult. 因此，如果没有复制并直接通过mult（xmm0在您的示例中），它的值将被覆盖，然后丢失剩余的_mm_shuffle_ps指令

通过传入march=native第二个清单，您启用了 AVX 指令。AVX 使 SSE 指令能够使用三种操作数语法：c = a OP b. 在这种情况下，不必覆盖任何源操作数，因此您不需要额外的副本。

score 4 · Accepted Answer

让我建议，如果您打算使用 SIMD 进行点积，那么您尝试找到一种同时对多个向量进行操作的方法。例如，对于 SSE，如果您有四个向量，并且您想用一个固定向量进行点积，那么您可以排列数据，如 (xxxx)、(yyyy)、(zzzz)、(wwww) 并添加每个 SSE 向量并得到一次四个点积的结果。这将使您的效率达到 100%（四倍加速），并且不仅限于 4 分量向量，对于 n 分量向量也是 100% 的效率。这是一个仅使用 SSE 的示例。

#include <xmmintrin.h>
#include <stdio.h>

void dot4x4(float *aosoa, float *b, float *out) {   
    __m128 vx = _mm_load_ps(&aosoa[0]);
    __m128 vy = _mm_load_ps(&aosoa[4]);
    __m128 vz = _mm_load_ps(&aosoa[8]);
    __m128 vw = _mm_load_ps(&aosoa[12]);
    __m128 brod1 = _mm_set1_ps(b[0]);
    __m128 brod2 = _mm_set1_ps(b[1]);
    __m128 brod3 = _mm_set1_ps(b[2]);
    __m128 brod4 = _mm_set1_ps(b[3]);
    __m128 dot4 = _mm_add_ps(
        _mm_add_ps(_mm_mul_ps(brod1, vx), _mm_mul_ps(brod2, vy)),
        _mm_add_ps(_mm_mul_ps(brod3, vz), _mm_mul_ps(brod4, vw)));
    _mm_store_ps(out, dot4);

}

int main() {
    float *aosoa = (float*)_mm_malloc(sizeof(float)*16, 16);
    /* initialize array to AoSoA vectors v1 =(0,1,2,3}, v2 = (4,5,6,7), v3 =(8,9,10,11), v4 =(12,13,14,15) */
    float a[] = {
        0,4,8,12,
        1,5,9,13,
        2,6,10,14,
        3,7,11,15,
    };
    for (int i=0; i<16; i++) aosoa[i] = a[i];

    float *out = (float*)_mm_malloc(sizeof(float)*4, 16);
    float b[] = {1,1,1,1};
    dot4x4(aosoa, b, out);
    printf("%f %f %f %f\n", out[0], out[1], out[2], out[3]);

    _mm_free(aosoa);
    _mm_free(out);
}

score 1 · Accepted Answer

（事实上，尽管有很多人赞成，但发布这个问题时给出的答案并没有达到我的期望。这是我一直在等待的答案。）

SSE指令

shufps $IMM, xmmA, xmmB

不作为

xmmB = f($IMM, xmmA) 
//set xmmB with xmmA's words shuffled according to $IMM

但作为

xmmB = f($IMM, xmmA, xmmB) 
//set xmmB with 2 words of xmmA and 2 words of xmmB according to $IMM

这就是为什么需要mulps从xmm0to复制结果的原因xmm1..3。

c - C 内在函数、SSE2 点积和 gcc -O3 生成的程序集

4 回答 4

Related

Reference