x86 - SSE指令：字节+短

Question

我有很长的字节数组需要添加到类型short（或int）的目标数组中。是否存在这样的 SSE 指令？或者也许他们的设置？

score 7 · Accepted Answer

您需要将每个 8 位值的向量解压缩为两个 16 位值的向量，然后将它们相加。

__m128i v = _mm_set_epi8(15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0);
__m128i vl = _mm_unpacklo_epi8(v, _mm_set1_epi8(0)); // vl = { 7, 6, 5, 4, 3, 2, 1, 0 }
__m128i vh = _mm_unpackhi_epi8(v, _mm_set1_epi8(0)); // vh = { 15, 14, 13, 12, 11, 10, 9, 8 }

其中v是 16 x 8 位值的向量vl，vh是 8 x 16 位值的两个解包向量。

请注意，我假设 8 位值是无符号的，因此当解压缩为 16 位时，高字节设置为 0（即无符号扩展）。

如果你想对这些向量求和并得到一个 32 位的结果，那么一个有用的技巧是使用_mm_madd_epi161 的乘数，例如

__m128i vsuml = _mm_set1_epi32(0);
__m128i vsumh = _mm_set1_epi32(0);
__m128i vsum;
int sum;

for (int i = 0; i < N; i += 16)
{
    __m128i v = _mm_load_si128(&x[i]);
    __m128i vl = _mm_unpacklo_epi8(v, _mm_set1_epi8(0));
    __m128i vh = _mm_unpackhi_epi8(v, _mm_set1_epi8(0));
    vsuml = _mm_add_epi32(vsuml, _mm_madd_epi16(vl, _mm_set1_epi16(1)));
    vsumh = _mm_add_epi32(vsumh, _mm_madd_epi16(vh, _mm_set1_epi16(1)));
}
// do horizontal sum of 4 partial sums and store in scalar int
vsum = _mm_add_epi32(vsuml, vsumh);
vsum = _mm_add_epi32(vsum, _mm_srli_si128(vsum, 8));
vsum = _mm_add_epi32(vsum, _mm_srli_si128(vsum, 4));
sum = _mm_cvtsi128_si32(vsum);

score 1 · Accepted Answer

如果您需要对字节向量进行符号扩展而不是零扩展，请使用pmovsxbw( _mm_cvtepi8_epi16)。与 unpack hi/lo 指令不同，您只能从 src 寄存器的低半/四分之一/八分之一执行 pmovsx。

但是，您可以直接从内存中 pmovsx，即使内在函数使这非常笨拙。由于在大多数 CPU 上，shuffle 吞吐量比负载吞吐量更受限制，因此执行两个 load+pmovsx 可能比执行一个 load + 三个 shuffle 更可取。

x86 - SSE指令：字节+短

2 回答 2

Related

Reference