我正在研究使用 gotoblas 库在一个 CPU 周期内可以完成多少次 FLOP。我使用 32 位浮点数来运行矩阵乘法,并通过手动计算在每个 CPU 周期得到大约 8 次 FLOP。我想这可能是因为我的处理器(Intel Xeon E5430)中有两个 FPU,每个 FPU 都处理 128 位 XMM 寄存器上的一条 SSE 指令。因此,使用 32 位浮点数,每个 CPU 周期我得到 2*4 FLOP。
我的猜测正确吗?有没有我可以参考的官方手册来获取一个英特尔处理器中的 FPU 数量?
谢谢!