performance - 乱序硬件：它有多“智能”？

Question

我正在从事一个对性能至关重要的项目，其中每个时钟周期在我最重要的内部循环中都很重要。我正在考虑重组代码以隐藏指令延迟，但我想知道现代 CPU 的乱序执行硬件在多大程度上已经为我做到了这一点。考虑以下（简单的、假设的）示例：

// Increment three counters.  These instructions should all execute in
// parallel with latency of one cycle.  Assume the previous register values
// have been computed a long time ago and are ready to use by the time
// these are decoded.
add RAX, 1;
add RBX, 2;
add RCX, 3;

// Multiply takes at least three cycles.  Again, assume both inputs are
// ready by the time we get here.
imul RDX, RDI;

// Use the result of the imul immediately in a long dependency chain.
mov RDX, [RDX];
cmp RDX, 1;
jae LBlahBlahBlah;

我的问题是以下哪一项适用：

现代主流的乱序硬件将对imul三个add指令之前的指令重新排序，即使add指令以编程方式出现在指令之前，imul并且在它们被解码时它们的所有输入依赖项都可用。具有imul比add指令更长的延迟，并且在依赖链中立即使用，因此这是最佳的。
乱序执行仅在由于缺少输入依赖项而在解码时无法以编程方式执行的较早指令时发生。不能指望硬件“向前看”来动态优化这样的事情。

score 2 · Accepted Answer

您的第二种解释是正确的，乱序执行背后的想法是确保长依赖链或其他长时间运行的指令（如内存访问）不会阻塞独立操作（如与长时间运行无关的两个寄存器之间的相加）指令）并允许它们并行执行。但是，指令是按顺序获取和解码的。处理器无法提前查看程序，确定一条指令是独立的指令并在检索其他指令之前运行它。那就是编译器应该优化的地方。

在您的示例中，指令是按顺序获取和解码的，首先add RAX, 1，然后add RBX, 2，然后add RCX, 3，然后imul RDX, RDI（尽管如果处理器是超级缩放器，您可以获取和解码多个指令，但这是一个单独的概念）。每个都将被依次分派到适当的保留站，但是，如果只有一个单元执行加法，则会出现乱序方面，一些加法可能与imul; 这是非常依赖于架构的。

如果时间要求的细节如此严格，您将需要非常小心现代的高速架构，因为它们有大量复杂的结构来提高性能。但是，根据运行的代码，这些机制可能会导致显着的延迟。分支预测和缓存只是在发生未命中或错误预测（或正确使用时很好的吞吐量改进）的情况下的两个延迟来源。您最好的选择是获得一个周期精确的处理器模拟器，以确保您的代码能够满足要求（或者您可以使用实际的硬件）。

另请注意，如果您使用的是现代架构，我假设您可能正在运行一个操作系统，这是一个会破坏您试图获得的超高性能的软件级别。

performance - 乱序硬件：它有多“智能”？

1 回答 1

Related

Reference