c - 如何访问 256 位 ps 向量的组件

Question

如何高效访问 256 位向量的元素？例如，我计算了点积

c = _mm256_dp_ps(a, b, 0xff);

那么如何访问c中的值呢？我需要同时获得高位和低位，我是否正确理解我首先需要像这样提取 128 位部分：

r0 = _mm256_extractf128_ps(c,0);
r1 = _mm256_extractf128_ps(c,1);

然后才提取浮点数：

_MM_EXTRACT_FLOAT(fr0, r0, 0);
_MM_EXTRACT_FLOAT(fr1, r1, 0);

return fr0 + fr1;

score 4 · Accepted Answer

好吧，您可以只存储到内存中，然后使用标量：

float v[8];
*(__m256)(v) = _mm256_dp_ps(a, b, 0xff);
float result = v[0] + v[4];

您还可以将 256 位寄存器的上半部分交换到下半部分并添加，如下所示：

__m256 c = _mm256_dp_ps(a, b, 0xff);
__m256 d = _mm256_permute2f128_ps(c, c, 1);
__m256 result = _mm256_add_ps(c, d);

可能比任何一种选择都快得多的是一次做 4x 8 宽的点积并将它们一起减少。草图：

d0 = _mm256_dp_ps(a[0], b[0], 0xff);
d1 = _mm256_dp_ps(a[1], b[1], 0xff);
d2 = _mm256_dp_ps(a[2], b[2], 0xff);
d3 = _mm256_dp_ps(a[3], b[3], 0xff);

d01 = _mm256_permute_ps(d0, d1, ...);
d23 = _mm256_permute_ps(d2, d3, ...);
d0123 = _mm256_permute_ps(d01, d23, ...);

d0123upper = _mm256_permute2f128_ps(d0123, d0123, 1);
d = _mm256_add_ps(d0123upper, d0123); // lower 128 bits contain the results of 4 8-wide dot products

score -1 · Accepted Answer

没有有效的方法来做到这一点。dp_ps 操作本身很慢，后续提取也很慢。除非可以批量处理更多数据，否则使用 SSE4 指令计算点积并使用 128 位比使用 256 位更快。

c - 如何访问 256 位 ps 向量的组件

2 回答 2

Related

Reference