4

这与这个问题有关

考虑到这一点,在现代英特尔 CPU 上,SEC 阶段是在微码中实现的,这意味着将进行检查,使用烧录的密钥来验证 PEI ACM 上的签名。如果不匹配,则需要做某事,如果匹配,则需要做其他事情。鉴于这是作为 MSROM 过程实现的,因此必须有一种分支方式,但鉴于 MSROM 指令没有 RIP。

通常,当一个分支错误预测为被采用时,当指令退出时,ROB 将检查异常代码,因此将指令长度添加到 ROB 行的 RIP 或仅使用下一个 ROB 条目的 IP,这将导致前端在分支预测更新中被重新引导到该地址。对于 BOB,此功能现在已借给跳转执行单元。显然,这不会发生在 MSROM 例程中,因为前端与它无关。

我的想法是,有一个特定的跳转指令,只有 MSROM 例程可以发出,它跳转到 MSROM 中的不同位置,并且可以配置为始终预测 MSROM 分支指令不会被执行,并且当分支执行单元遇到这个指令和分支被采用,它产生一个异常代码,并可能将特殊跳转目标连接到它,并且在退出时发生异常。或者,执行单元可以处理它并且它可以使用 BOB,但我的印象是 BOB 由分支指令 RIP 索引,然后还有一个事实是生成 MSROM 代码的异常通常在退休时处理;分支错误预测不需要我不认为的 MSROM,而是所有操作都是在内部执行的。

4

3 回答 3

6

微码分支显然很特别。

英特尔的 P6 和 SnB 系列不支持微码分支的动态预测,根据 Andy Glew 对原始 P6 的描述(REP 做了什么设置?)。鉴于 SnB-family 字符串rep指令的类似性能,我假设这个 PPro 事实甚至适用于最新的 Skylake / CoffeeLake CPU 1

但是微码分支错误预测会受到惩罚,因此它们是静态(?)预测的。(这就是为什么rep movsb对于 ECX 中的低/中/高计数,启动成本以 5 个周期为增量,并且对齐与未对齐。)


微编码指令在 uop 高速缓存中占用一整行。 当它到达 IDQ 的前面时,它会接管发布/重命名阶段,直到完成发布微码 uops。 (另请参阅如何在指令周期内执行微代码?有关更多详细信息,以及来自 perf 事件描述idq.dsb_uops的一些证据表明 IDQ 可以从 uop 缓存中接受新的 uop ,而问题/重命名阶段正在从微码序列器读取.)

对于rep-string 指令,我认为循环的每次迭代都必须通过前端实际发出,而不仅仅是后端循环并重用这些微指令。因此,这涉及来自 OoO 后端的反馈,以了解指令何时完成执行。

我不知道当问题/重命名切换到从 MS-ROM 而不是 IDQ 读取 uops 时会发生什么的详细信息。

即使每个 uop 都没有自己的 RIP(作为单个微编码指令的一部分),我猜分支错误预测检测机制的工作方式与普通分支类似。

rep movs根据具体情况(小与大、对齐等),某些 CPU 上的设置时间似乎以 5 个周期为步长。如果这些来自微码分支错误预测,那似乎意味着错误预测惩罚是固定数量的周期,除非这只是rep movs. 可能是因为 OoO 后端跟不上前端?并且从 MS-ROM 读取比从 uop 缓存读取更能缩短路径,从而使未命中惩罚如此之低。

对 OoO exec 可能有多少进行一些实验会很有趣rep movsb,例如使用两条依赖指令链imul,看看它是否(部分)将它们序列化为lfence. 我们希望不会,但是为了实现 ILP,以后的imul微指令必须在不等待后端耗尽的情况下发布。

我在 Skylake (i7-6700k) 上做了一些实验。初步结果:95 字节及以下的副本大小便宜且被 IMUL 链的延迟隐藏,但它们基本上完全重叠。 96 字节或更大的复制大小会耗尽 RS,序列化两个 IMUL 链。 不管是rep movsbRCX=95 vs. 96 还是rep movsdRCX=23 vs. 24 如果我有时间我会发布更多细节。

“消耗 RS”行为的测量结果rs_events.empty_end:u甚至变为 1 perrep movsb而不是 ~0.003。 other_assists.any:u是零,所以它不是“助攻”,或者至少不算作一。

如果微码分支不支持通过 BoB 进行快速恢复,那么无论涉及什么 uop 都可能只会在达到退休时检测到错误预测?96 字节阈值可能是某些替代策略的截止值。RCX=0 也会耗尽 RS,大概是因为它也是一种特殊情况。

测试起来会很有趣rep scas(它不支持快速字符串,只是缓慢而愚蠢的微代码。)

英特尔 1994 年的 Fast Strings 专利描述了 P6 中的实现。它没有 IDQ(因此现代 CPU 在阶段之间有缓冲区和 uop 缓存会有一些变化是有道理的),但他们描述的避免分支的机制很简洁,可能仍然用于现代 ERMSB:第一个n副本迭代是后端的谓词微指令,因此可以无条件地发出它们。还有一个 uop 会导致后端将其 ECX 值发送到微码定序器,然后微码定序器使用它来提供正确数量的额外复制迭代。只是复制微指令(可能是 ESI、EDI 和 ECX 的更新,或者可能只在中断或异常时这样做),而不是微码分支微指令。

在阅读 RCX 后,最初n的 uops 与输入更多可能是我看到的 96 字节阈值;它带有额外的idq.ms_switches:urep movsb(从 4 到 5)。

https://eprint.iacr.org/2016/086.pdf建议微码在某些情况下可以触发辅助,这可能是较大副本大小的现代机制,并且可以解释耗尽 RS(显然是 ROB),因为它仅在 uop提交(退休)时触发,因此它就像一个没有快速恢复的分支。

执行单元可以通过将事件代码与微操作的结果相关联来发出帮助或发出故障信号。当微操作被提交(第 2.10 节)时,事件代码会导致乱序调度程序压缩 ROB 中所有正在运行的微操作。事件代码被转发到微码定序器,它读取相应事件处理程序中的微操作“

该专利与 P6 专利之间的区别在于,此辅助请求可能发生在来自后续指令的一些非微码微指令已经发出之后,因为预计微码指令仅在第一批微指令中完成。或者,如果它不是来自微码的批次中的最后一个微指令,它可以用作选择不同策略的分支。

但这就是为什么它必须刷新 ROB。

我对 P6 专利的印象是,对 MS 的反馈发生在稍后的指令发出微指令之前,如果需要,及时发布更多的微指令。如果我错了,那么也许它已经是 2016 年论文中描述的相同机制。


通常,当一个分支错误预测为被采用时,当指令退出时,

自从 Nehalem 以来,英特尔已经“快速恢复”,当错误预测的分支执行时开始恢复,而不是像例外那样等待它达到退休。

这就是在通常的 ROB 退休状态之上拥有一个分支顺序缓冲区的要点,它允许您在任何其他类型的意外事件变为非推测性时回滚。(当 Skylake CPU 错误预测分支时,究竟会发生什么?


脚注 1:IceLake 应该具有“快速短代表”功能,这可能是处理rep字符串的不同机制,而不是对微码的更改。例如,也许像安迪这样的硬件状态机提到他希望他首先设计。

我没有任何关于性能特征的信息,但是一旦我们知道了一些东西,我们就可以对新的实现做出一些猜测。

于 2019-04-23T23:17:34.647 回答
2

我现在知道的是,分支是由 MSROM 静态预测的,它在下一个 IP 逻辑中为下一个微代码行使用该预测。这些预测可能已经在存储在 MSROM 中的微指令中提供。

对于更小和更频繁的 MSROM 例程,复杂的解码器可以在将控制权传递给 MSROM 以完成解码之前发出 1-4 uop。否则,它会延迟将控制权交给 MSROM。

在优选实施例中,一些更频繁使用的宏指令由 XLAT PLA 510-516 解码为微操作序列中的第一个 Cuop 中的一个、两个、三个或四个,这以XLAT PLAs 510-516 中的附加最小术语。或者,对于一些不太常用的宏指令,四个 XLAT PLA 510-516 不发出 Cuops,而只是让 MS 单元 534 发出所有 Cuops。第二个替代方案的缺点是性能较低(即损失至少一个时钟周期),但可以在 XLAT PLA 510-516 中节省最小项(条目),这是一种设计折衷,可减少芯片空间以较低的性能为代价。这种折衷对于不经常使用的指令或对于减少一个附加时钟的重要性的长微代码流很有用。

来自宏指令502的操作码被提供给入口点PLA 530,入口点PLA 530对操作码进行解码以生成进入微码ROM的入口点地址。生成的入口点地址被提供给MS单元534,MS单元534响应于入口点生成一系列Cuop。MS单元534包括微码ROM(“UROM”),其包括为长指令流提供UROM Cuop的微码例程,在一些示例中这可能需要超过一百个UROM Cuop。UROM 还包括辅助处理例程和其他微代码。

其余的在这里回答:https ://stackoverflow.com/a/65796517/7194773

于 2021-02-01T08:18:54.013 回答
2

英特尔已经为一些非常类似于汇编的微码功能申请了专利,其中包括:

从 L1、L2 或 L3 执行(!!!!!!!!!!!!!!!!!!!!!!!!)。哎呀,他们获得了将“大”微码更新从大容量存储加载到 L3 并从那里更新的专利……请注意,“专利”和“实现”是不同的,我不知道他们目前是否实现了其他任何东西从 L1 执行。

MCU 包中的 Opcode 和 Ucode(!) 部分(统一的微处理器更新)——我们称之为“微码更新”的东西,但里面确实有/可以有各种各样的东西,包括 PMU 固件更新、MCROM 补丁、非核心参数更改,在处理器固件/ucode 更新程序之前/之后执行的PWC 固件等。

类似子程序的行为,包括Ucode 上的参数。条件分支,或者至少是条件循环,他们已经有很长一段时间了。

微码的压缩和解压缩(未知是否可以直接从压缩状态“运行”,但该专利似乎暗示它至少将用于优化 MCU 封装)。

WRMSR/RDMSR 确实更像是一个 RPC 到 Ucode 中,而不是现在的任何其他东西,我想当他们发现他们需要一个新的 MSR 或对架构 MSR 行为进行复杂的更改(如 LAPIC 基址寄存器)时,这真的很有帮助,必须“守门”才能解决几年前成为新闻的 LAPIC 内存沉洞 SMM 安全漏洞)。

因此,只需将其视为实现“公共”指令架构的硬件加速图灵完备 RISC 机器。

于 2019-04-24T11:33:55.783 回答