您的 Knight's Landing 担忧基于关于 Knight's Corner的这句话:
Knight's Corner 处理器基于 x86-64 基础,是的,但实际上它有自己的浮点指令集——没有 x87、没有 AVX、没有 SSE、没有 MMX……哦,然后你可以抛出所有当Knight's Landing(KNL)出来时,它就消失了。
“把所有的东西都扔掉”,他们的意思是所有的担忧和不相容。KNL 基于 Silvermont 并且完全兼容 x86-64(包括 x87、SSE 和 SSE2 用于执行 FP 数学的两种标准方法)。它还支持 AVX-512F、AVX-512ER 和其他一些 AVX-512 扩展,以及 AVX 和 AVX2 以及 SSE 到 SSE4.2。很像 Skylake 服务器 CPU,除了一组不同的 AVX-512 扩展。
这样做的目的正是为了解决您担心的问题:因此任何遗留二进制文件都可以在 KNL 上运行。为了从中获得良好的性能,您希望在执行繁重工作的循环中运行使用 AVX-512 向量进行向量化的代码,但 Linux 发行版的其余部分中的所有周围代码和其他程序或任何可以正常运行的程序使用任何 x87 和/或 SSE 的沼泽标准代码。
Knight's Corner(第一代商业 Xeon Phi)在基于 P5-Pentium 的内核中拥有自己的 AVX-512 变体/前身,并且没有其他 FP 硬件。
Knight's Landing(第二代商业 Xeon Phi)基于 Silvermont,配备 AVX-512,是第一个可以充当“主机”处理器(可启动)而不仅仅是协处理器的产品。
这种“主机”模式是包含足够硬件来解码和执行 x87 和 SSE 的另一个原因:如果您在 KNL 上运行整个系统,您更有可能希望执行一些旧的二进制文件以实现非性能敏感任务,不仅是专门为它编译的二进制文件。
不过,它的 x87 性能并不是很好:就像fmul
每 2 个时钟一个标量 ( https://agner.org/optimize )。与每时钟 2 个 SSE mulsd
(0.5c 接收吞吐量)相比。其他 SSE/AVX 数学具有相同的 0.5c 吞吐量,包括 AVX-512vfma132ps zmm
在一条指令中执行 16 倍单精度融合乘加运算。
所以希望 Go 的编译器不会过多地使用 x87。在 64 位模式(C 编译器及其数学库使用)中进行标量数学的常规方法是 SSE,在 XMM 寄存器中。x86-64 C 编译器仅将 x87 用于long double
.