5

我正在使用 MS Visual Studio 中的 SSE2 指令集。我正在使用它对 16 位数据进行一些计算。

假设我有 8 个值加载到 SSE 寄存器中。我想为42所有这些添加一个常量(例如)。这是我希望我的代码看起来的样子。

__m128i values; // 8 values, 16 bits each
const __m128i my_const_42 = ???; // What should i write here?
values = _mm_add_epi16(values, my_const_2); // Add 42 to the 8 values

现在,我如何定义常量?以下两种方式可行,但一种效率低下,另一种难看。

  1. my_const_42 = _mm_set_epi16(42, 42, 42, 42, 42, 42, 42, 42)- 编译器生成 8 个命令来“构建”常量
  2. my_const_42 = {42, 0, 42, 0, 42, 0, 42, 0, 42, 0, 42, 0, 42, 0, 42, 0}- 很难理解发生了什么;更改42为 eg-42并非易事

有什么方法可以更方便地表达 128 位常量吗?

4

2 回答 2

8

百分之九十的战斗是找到正确的内在。MSDN 库组织得很好,从这个页面开始。从那里,像这样向下钻取:

  • 您知道要使用“MMX、SSE 和 SSE2 Intrinsics”,请单击该链接
  • 你知道你想使用“Streaming SIMD Extensions 2”,点击那个链接
  • 下一个有吸引力的链接是“整数内存和初始化”,因为你不想要浮点
  • 您将获得两个相关链接,加载和设置操作
  • 加载只会让你找到你已经找到的

套装是金色的,流行起来_mm_set1_epi16 (short w)

于 2012-06-03T20:57:06.767 回答
3

在 SSE(或 NEON)中创建常量的注意事项。与指令执行相比,从内存加载数据非常慢。如果您需要一个可以通过代码创建的常量,那么这是更快的选择。以下是通过代码创建的一些常量示例:

 xmmTemp = _mm_cmpeq_epi16(xmmA, xmmA); // FFFF
 xmmTemp = _mm_slli_epi16 (mmxTemp, 7); // now it has 0xFF80 (-128)

 xmmTemp = _mm_cmpeq_epi16(xmmA, xmmA); // FFFF
 xmmTemp = _mm_slli_epi16 (mmxTemp, 15); // 0x8000
 xmmTemp = _mm_srli_epi16 (mmxTemp, 11); // 0x10 (positive 16)
于 2012-06-06T02:47:21.843 回答