2

我正在研究使用 gotoblas 库在一个 CPU 周期内可以完成多少次 FLOP。我使用 32 位浮点数来运行矩阵乘法,并通过手动计算在每个 CPU 周期得到大约 8 次 FLOP。我想这可能是因为我的处理器(Intel Xeon E5430)中有两个 FPU,每个 FPU 都处理 128 位 XMM 寄存器上的一条 SSE 指令。因此,使用 32 位浮点数,每个 CPU 周期我得到 2*4 FLOP。

我的猜测正确吗?有没有我可以参考的官方手册来获取一个英特尔处理器中的 FPU 数量?

谢谢!

4

1 回答 1

1

我想我找到了原因。从理论上讲,Intel Xeon E5430 可以在一个 CPU 周期内对单精度浮点数进行 4 宽度 SSE 加法 + 4 宽度 SSE 乘法。

于 2013-10-22T02:34:35.677 回答