使用 SSE,您可以使用内在的 _mm_load1_ps() 将单个浮点数从内存加载到 __m128 的所有 4 个插槽中
将 256 位宽的 SIMD 与 AVX 一起使用时,似乎没有 _mm256_load1_ps() 将单个浮点数从内存加载到向量的所有 8 个插槽中。
为什么会出现这种遗漏,最好的解决方法是什么?
甚至更好:有没有办法将单个浮点数加载到向量的目标插槽 0..7 中?
使用 SSE,您可以使用内在的 _mm_load1_ps() 将单个浮点数从内存加载到 __m128 的所有 4 个插槽中
将 256 位宽的 SIMD 与 AVX 一起使用时,似乎没有 _mm256_load1_ps() 将单个浮点数从内存加载到向量的所有 8 个插槽中。
为什么会出现这种遗漏,最好的解决方法是什么?
甚至更好:有没有办法将单个浮点数加载到向量的目标插槽 0..7 中?