我正在使用 SSE2 内在函数为 8x16 位向量编写转置函数。由于该函数有 8 个参数(一个 8x8x16 位大小的矩阵),我只能通过引用传递它们。编译器会对此进行优化吗(我的意思是,这些 __m128i 对象会在寄存器而不是堆栈中传递)吗?
代码片段:
inline void transpose (__m128i &a0, __m128i &a1, __m128i &a2, __m128i &a3,
__m128i &a4, __m128i &a5, __m128i &a6, __m128i &a7) {
....
}