我正在根据Intel [pdf]描述的算法在pixman中实现快速 x888 -> 565 像素转换功能。他们的代码转换 x888 -> 555 而我想转换为 565。不幸的是,转换为 565 意味着设置了高位,这意味着我不能使用有符号饱和包指令。无符号打包指令直到 SSE4.1 才添加。我想用 SSE2 实现它的功能或找到另一种方法。packusdw
此函数采用两个 XMM 寄存器,每个寄存器包含 4 个 32 位像素,并输出一个包含 8 个转换后的 RGB565 像素的 XMM 寄存器。
static force_inline __m128i
pack_565_2packedx128_128 (__m128i lo, __m128i hi)
{
__m128i rb0 = _mm_and_si128 (lo, mask_565_rb);
__m128i rb1 = _mm_and_si128 (hi, mask_565_rb);
__m128i t0 = _mm_madd_epi16 (rb0, mask_565_pack_multiplier);
__m128i t1 = _mm_madd_epi16 (rb1, mask_565_pack_multiplier);
__m128i g0 = _mm_and_si128 (lo, mask_green);
__m128i g1 = _mm_and_si128 (hi, mask_green);
t0 = _mm_or_si128 (t0, g0);
t1 = _mm_or_si128 (t1, g1);
t0 = _mm_srli_epi32 (t0, 5);
t1 = _mm_srli_epi32 (t1, 5);
/* XXX: maybe there's a way to do this relatively efficiently with SSE2? */
return _mm_packus_epi32 (t0, t1);
}
我想到的想法:
减去 0x8000,
_mm_packs_epi32
,将 0x8000 重新添加到每个 565 像素。我已经尝试过了,但我无法做到这一点。t0 = _mm_sub_epi16 (t0, mask_8000); t1 = _mm_sub_epi16 (t1, mask_8000); t0 = _mm_packs_epi32 (t0, t1); return _mm_add_epi16 (t0, mask_8000);
随机播放数据而不是打包数据。适用于 MMX,但由于 SSE 16 位随机播放仅适用于高 64 位或低 64 位,因此会变得混乱。
保存高位,将它们设置为零,打包,然后恢复它们。看起来很乱。
有没有其他(希望更有效)的方法可以做到这一点?