我正在尝试对一些代码进行超级优化,我想加快速度的地方如下。
我想得到一个 _m128 的点积运算 (_mm_dp_ps) 的答案,并将答案直接保存到寄存器中。但是,使用 _mm_store,这意味着我必须将完整的 128 位写入一个数组,然后加载该数组的第一个条目。
调用我的 _m128 变量“向量”。
我可以做 float ans = *(((float *)&vector) 吗?
如果这有效,那么它是否有帮助的问题仍然存在。将 ans 加载到寄存器中,还是无论如何我都必须从 L1 加载它?
谢谢!!!