我知道处理器通过缓存线将数据带入缓存,例如,在我的 Atom 处理器上,无论读取的实际数据大小如何,它每次都会带来大约 64 个字节。
我的问题是:
想象一下,你需要从内存中读取一个字节,这 64 个字节将被带入缓存?
我可以看到的两种可能性是,64 字节从感兴趣字节下方最近的 64 字节边界开始,或者 64 字节以某种预定方式分布在字节周围(例如,一半低于,一半高于,或上述所有)。
它是哪一个?
如果包含您正在加载的字节或字的缓存行尚未出现在缓存中,您的 CPU 将请求从缓存行边界开始的 64 个字节(您需要的最大地址是 64 的倍数) .
现代 PC 内存模块一次传输 64 位(8 字节),一次传输 8次,因此一个命令触发从内存读取或写入完整的高速缓存行。(DDR1/2/3/4 SDRAM 突发传输大小可配置为高达 64B;CPU 将选择突发传输大小以匹配其缓存线大小,但 64B 很常见)
根据经验,如果处理器无法预测内存访问(并预取),则检索过程可能需要约 90 纳秒或约 250 个时钟周期(从 CPU 知道地址到 CPU 接收数据)。
相比之下,L1 缓存中的命中具有 3 或 4 个周期的加载使用延迟,而在现代 x86 CPU 上,存储重载具有 4 或 5 个周期的存储转发延迟。其他架构上的情况类似。
进一步阅读:Ulrich Drepper 的每个程序员都应该知道的关于内存的知识。软件预取建议有点过时:现代硬件预取器更智能,超线程比 P4 时代要好得多(因此预取线程通常是一种浪费)。此外,x86标签 wiki 有很多关于该架构的性能链接。
首先,主存访问非常昂贵。目前,2GHz CPU(最慢的一次)每秒有 2G 滴答声(周期)。CPU(现在的虚拟内核)可以在每次滴答时从其寄存器中获取一个值。由于虚拟内核由多个处理单元(ALU - 算术逻辑单元、FPU 等)组成,因此它实际上可以在可能的情况下并行处理某些指令。
访问主存大约需要 70ns 到 100ns(DDR4 稍快一些)。这一次基本上是查找 L1、L2 和 L3 缓存,然后命中内存(向内存控制器发送命令,将其发送到内存库),等待响应并完成。
100ns 意味着大约 200 个滴答声。所以基本上,如果一个程序总是错过每个内存访问的缓存,CPU 将花费大约 99.5% 的时间(如果它只读取内存)空闲等待内存。
为了加快速度,有 L1、L2、L3 缓存。他们使用直接放置在芯片上的内存并使用不同类型的晶体管电路来存储给定的位。这比主内存占用更多空间、更多能量并且成本更高,因为 CPU 通常是使用更先进的技术生产的,并且 L1、L2、L3 内存中的生产故障有机会使 CPU 变得毫无价值(缺陷),因此大型 L1、L2、L3 缓存会增加错误率,从而降低良率,从而直接降低 ROI。因此,在可用缓存大小方面存在巨大的折衷。
(目前创建更多的 L1、L2、L3 高速缓存,以便能够停用某些部分,以减少实际生产缺陷是高速缓存内存区域导致整个 CPU 缺陷的机会)。
给出一个计时的想法(来源:访问缓存和内存的成本)
由于我们混合了不同的 CPU 类型,这些只是估计值,但可以很好地了解获取内存值时的实际情况,并且我们可能会在某些缓存层中遇到命中或未命中。
所以缓存基本上可以大大加快内存访问速度(60ns vs. 1ns)。
获取一个值,将其存储在缓存中以便重新读取它对于经常访问的变量很有用,但对于内存复制操作,它仍然会很慢,因为一个人只是读取一个值,将值写入某处并且从不读取该值再次......没有缓存命中,非常慢(除此之外可以并行发生,因为我们有乱序执行)。
此内存副本非常重要,因此有不同的方法可以加快速度。在早期,内存通常能够在 CPU 之外复制内存。它由内存控制器直接处理,因此内存复制操作不会污染缓存。
但除了普通的内存副本之外,其他串行内存访问也很常见。一个例子是分析一系列信息。拥有一个整数数组并计算总和、平均值、平均值或更简单的找到某个值(过滤器/搜索)是另一类非常重要的算法,每次在任何通用 CPU 上运行。
因此,通过分析内存访问模式,很明显数据是按顺序读取的。如果程序读取索引 i 处的值,则程序很可能也会读取值 i+1。这个概率略高于同一个程序也会读取值 i+2 的概率,以此类推。
因此,给定一个内存地址,提前读取并获取附加值是(现在仍然是)一个好主意。这就是为什么有升压模式的原因。
升压模式下的内存访问意味着发送一个地址并顺序发送多个值。每个额外的值发送只需要大约额外的 10ns(甚至更低)。
另一个问题是地址。发送地址需要时间。为了寻址大部分内存,必须发送大地址。在早期,这意味着地址总线不够大,无法在单个周期(滴答声)中发送地址,并且需要一个以上的周期来发送地址,从而增加了更多延迟。
例如,64 字节的高速缓存行意味着内存被划分为大小为 64 字节的不同(非重叠)内存块。64bytes 表示每个块的起始地址具有最低六个地址位,始终为零。因此,对于任意数量的地址总线宽度(欢迎效应),不需要每次发送这六个零位将地址空间增加 64 倍。
缓存线解决的另一个问题(除了提前读取和保存/释放地址总线上的六位)是缓存的组织方式。例如,如果缓存将被划分为 8 字节(64 位)块(单元),则需要存储内存单元的地址,该缓存单元与其一起保存值。如果地址也是 64 位,这意味着该地址消耗了一半的缓存大小,导致 100% 的开销。
由于缓存线是 64 字节,而 CPU 可能使用 64 位 - 6 位 = 58 位(无需将零位存储得太正确)意味着我们可以缓存 64 字节或 512 位,但开销为 58 位(11% 的开销)。实际上,存储的地址甚至比这还要小,但有状态信息(比如缓存行是否有效和准确、脏并且需要在 ram 中写回等)。
另一个方面是我们有集合关联缓存。并非每个缓存单元都能够存储某个地址,而只能存储其中的一个子集。这使得必要的存储地址位更小,允许并行访问缓存(每个子集可以访问一次,但独立于其他子集)。
特别是在不同虚拟内核之间同步缓存/内存访问时,每个内核独立的多个处理单元以及最后一个主板上的多个处理器(其中有多达 48 个处理器甚至更多的主板)。
这基本上就是我们为什么有缓存行的当前想法。提前读取的好处是非常高的,并且从缓存行中读取单个字节并且不再读取其余字节的最坏情况非常小,因为概率非常小。
高速缓存行 (64) 的大小是较大高速缓存行之间的明智选择折衷,这使得它的最后一个字节也不太可能在不久的将来被读取,即获取完整高速缓存行所需的持续时间从内存(并将其写回)以及缓存组织的开销以及缓存和内存访问的并行化。
如果高速缓存行是 64 字节宽,那么它们对应于从可被 64 整除的地址开始的内存块。任何地址的最低有效 6 位是高速缓存行的偏移量。
因此,对于任何给定的字节,可以通过清除地址的最低有效六位来找到必须提取的缓存行,这对应于向下舍入到可被 64 整除的最近地址。
虽然这是由硬件完成的,但我们可以使用一些参考 C 宏定义来显示计算:
#define CACHE_BLOCK_BITS 6
#define CACHE_BLOCK_SIZE (1U << CACHE_BLOCK_BITS) /* 64 */
#define CACHE_BLOCK_MASK (CACHE_BLOCK_SIZE - 1) /* 63, 0x3F */
/* Which byte offset in its cache block does this address reference? */
#define CACHE_BLOCK_OFFSET(ADDR) ((ADDR) & CACHE_BLOCK_MASK)
/* Address of 64 byte block brought into the cache when ADDR accessed */
#define CACHE_BLOCK_ALIGNED_ADDR(ADDR) ((ADDR) & ~CACHE_BLOCK_MASK)
处理器可能具有多级缓存(L1、L2、L3),它们在大小和速度上有所不同。
然而,要了解每个高速缓存的确切内容,您必须研究该特定处理器使用的分支预测器,以及程序的指令/数据如何针对它运行。
这不是一件容易的事。如果最终您只想进行性能测试,则可以使用Cachegrind之类的工具。但是,由于这是一个模拟,其结果可能会有所不同。
我不能肯定地说,因为每个硬件都不同,但它通常是“64 字节从下面最近的 64 字节边界开始”,因为这对 CPU 来说是一个非常快速和简单的操作。