8

使用 SSE,您可以使用内在的 _mm_load1_ps() 将单个浮点数从内存加载到 __m128 的所有 4 个插槽中

将 256 位宽的 SIMD 与 AVX 一起使用时,似乎没有 _mm256_load1_ps() 将单个浮点数从内存加载到向量的所有 8 个插槽中。

为什么会出现这种遗漏,最好的解决方法是什么?

甚至更好:有没有办法将单个浮点数加载到向量的目标插槽 0..7 中?

4

1 回答 1

11

_mm256_broadcast_ss是您正在寻找的。

于 2013-06-14T00:11:34.493 回答