假设我有 SSE 到 SSE4.1,但没有 AVX(2),那么加载这样的压缩内存布局的最快方法是什么(所有 32 位整数):
a0 b0 c0 d0 a1 b1 c1 d1 a2 b2 c2 d2 a3 b3 c3 d3
分成四个向量a, b, c, d
?
a: {a0, a1, a2, a3}
b: {b0, b1, b2, b3}
c: {c0, c1, c2, c3}
d: {d0, d1, d2, d3}
我不确定这是否相关,但在我的实际应用程序中,我有 16 个向量,因此a0
在a1
内存中相隔 16*4 字节。