嘿!
我需要在 c 中优化一些矩阵乘法代码,并且我正在使用 SSE 向量指令进行操作。我还发现存在 SSE4.1 已经有针对点积 dpps 的指令。
问题是在这个软件应该工作的机器上安装了一个旧版本的 gcc (4.1.2),它不支持 SSE4.1,但它有一个支持它的处理器(不要问我为什么gcc 版本比处理器旧...)。所以我不能使用 _mm_dp_ps 函数。
我正在尝试向 c 添加一些汇编代码。问题是我以前从未使用过汇编代码,所以真的很混乱。在汇编程序中编写所有处理向量指令的代码是否更有效?
所以我在这里问是否还有其他方法可以使用 dpps 指令,是否值得使用?