我有一个 8 位像素数据的结构:
struct __attribute__((aligned(4))) pixels {
char r;
char g;
char b;
char a;
}
我想使用 SSE 指令来计算这些像素上的某些东西(即 Paeth 变换)。如何将这些像素作为 32 位无符号整数加载到 SSE 寄存器中?
我有一个 8 位像素数据的结构:
struct __attribute__((aligned(4))) pixels {
char r;
char g;
char b;
char a;
}
我想使用 SSE 指令来计算这些像素上的某些东西(即 Paeth 变换)。如何将这些像素作为 32 位无符号整数加载到 SSE 寄存器中?
好的,<emmintrin.h>
首先使用 SSE2 整数内在函数将事物加载到寄存器的低 32 位:
__m128i xmm0 = _mm_cvtsi32_si128(*(const int*)&pixel);
然后首先将这些 8 位值解压缩为寄存器低 64 位中的 16 位值,并用 0 交错:
xmm0 = _mm_unpacklo_epi8(xmm0, _mm_setzero_si128());
再次将这些 16 位值解压缩为 32 位值:
xmm0 = _mm_unpacklo_epi16(xmm0, _mm_setzero_si128());
您现在应该在 SSE 寄存器的相应 4 个组件中将每个像素作为 32 位整数。
我刚刚读到,您希望将这些值作为 32 位有符号整数获取,但我想知道 [-127,127] 中的有符号像素有什么意义。但是,如果您的像素值确实可以为负,则与零的交错将不起作用,因为它将负 8 位数字转换为正 16 位数字(因此将您的数字解释为无符号像素值)。负数必须用1
s 而不是0
s 扩展,但不幸的是,这必须在逐个组件的基础上动态决定,而 SSE 在这方面并不是那么好。
您可以做的是比较负值的值并使用生成的掩码(幸运的是,它1...1
用于 true 和0...0
false)作为 interleavand,而不是零寄存器:
xmm0 = _mm_unpacklo_epi8(xmm0, _mm_cmplt_epi8(xmm0, _mm_setzero_si128()));
xmm0 = _mm_unpacklo_epi16(xmm0, _mm_cmplt_epi16(xmm0, _mm_setzero_si128()));
1
这将正确地用s扩展负数和用s 扩展正数0
。但是,当然,只有当您的初始 8 位像素值可能为负时,才需要这种额外的开销(可能以 2-4 条额外的 SSE 指令的形式),我仍然对此表示怀疑。但如果确实如此,您应该考虑signed char
over ,因为后者具有实现定义的符号(如果这些是常见的无符号 [0,255] 像素值,char
您应该使用相同的方式)。unsigned char
虽然,正如澄清的那样,您不需要有符号的 8 位到 32 位的转换,但为了完整起见,哈罗德对基于 SSE2 的符号扩展有另一个非常好的想法,而不是使用上面提到的基于比较的版本。我们首先将 8 位值解压缩到 32 位值的高字节而不是低字节。由于我们不关心较低的部分,我们只需要再次使用 8 位值,这样我们就不需要额外的零寄存器和额外的移动:
xmm0 = _mm_unpacklo_epi8(xmm0, xmm0);
xmm0 = _mm_unpacklo_epi16(xmm0, xmm0);
现在我们只需要执行和算术右移高字节到低字节,这对负值进行正确的符号扩展:
xmm0 = _mm_srai_epi32(xmm0, 24);
这应该比我上面的 SSE2 版本更多的指令计数和寄存器效率。
并且由于与上述零扩展相比,它甚至应该在单个像素的指令数上相等(尽管在多个像素上摊销时多 1 条指令)和更高的寄存器效率(由于没有额外的零寄存器),它甚至可能是如果寄存器很少,则用于无符号到有符号的转换,但随后使用逻辑移位 ( _mm_srli_epi32
) 而不是算术移位。
感谢harold的评论,对于第一个 8 到 32 的转换,甚至还有更好的选择。如果你有 SSE4 支持(准确地说是 SSE4.1),它有指令将寄存器低 32 位中的 4 个压缩 8 位值完全转换为整个寄存器中的 4 个 32 位值,两者都是有符号和无符号 8 位值:
xmm0 = _mm_cvtepu8_epi32(xmm0); //or _mm_cvtepi8_epi32 for signed 8-bit values
至于后续反转这个变换,首先我们将有符号的 32 位整数打包成有符号的 16 位整数并饱和:
xmm0 = _mm_packs_epi32(xmm0, xmm0);
然后我们使用饱和将这些 16 位值打包成无符号的 8 位值:
xmm0 = _mm_packus_epi16(xmm0, xmm0);
然后我们终于可以从寄存器的低 32 位中获取我们的像素:
*(int*)&pixel = _mm_cvtsi128_si32(xmm0);
由于饱和度,整个过程将自动将任何负值映射到0
和大于 的任何值255
,255
这通常在处理彩色像素时使用。
如果在将 32 位值打包回unsigned char
s 时确实需要截断而不是饱和,那么您需要自己执行此操作,因为 SSE 仅提供饱和打包指令。但这可以通过做一个简单的来实现:
xmm0 = _mm_and_si128(xmm0, _mm_set1_epi32(0xFF));
就在上述包装程序之前。这应该仅相当于 2 条额外的 SSE 指令,或者在分摊到多个像素时仅相当于 1 条额外的指令。