我随便阅读了英特尔架构参考手册http://www.cs.princeton.edu/courses/archive/spr12/cos217/reading/ia32opt.pdf,当我阅读指令延迟和吞吐量附录时,我发现 sqrt 指令的延迟(执行核心完成执行构成指令的所有微操作所需的时钟周期数。)与除法的延迟完全相同(在第C-28) 指令——至少对于某些微架构而言。对于单精度、双精度和扩展精度,数字分别为 30、40 和 44 个时钟周期。
我的问题是 sqrt 指令如何与 div 指令一样大的处理器接收器?我一直认为 sqrt 指令在任何语言中都是昂贵的。