memory - 32 位 Intel 处理器上的内存对齐

Question

Intel 的 32 位处理器（例如 Pentium）具有 64 位宽的数据总线，因此每次访问获取 8 个字节。基于此，我假设这些处理器在地址总线上发出的物理地址始终是 8 的倍数。

首先，这个结论正确吗？

其次，如果它是正确的，那么应该在 8 字节边界上对齐数据结构成员。但是我看到人们在这些处理器上使用 4 字节对齐。

他们怎么能有理由这样做呢？

score 18 · Accepted Answer

通常的经验法则（直接来自 Intel 和 AMD 的优化手册）是每种数据类型都应该按照自己的大小对齐。anint32应该在 32 位边界上对齐，anint64在 64 位边界上对齐，依此类推。char 适合任何地方。

另一个经验法则当然是“编译器已被告知对齐要求”。您无需担心它，因为编译器知道添加正确的填充和偏移量以允许有效访问数据。

唯一的例外是使用 SIMD 指令时，您必须手动确保大多数编译器的对齐。

其次，如果它是正确的，那么应该在 8 字节边界上对齐数据结构成员。但是我看到人们在这些处理器上使用 4 字节对齐。

我不明白这有什么不同。CPU 可以简单地对包含这 4 个字节的 64 位块发出读取。这意味着它要么在请求的数据之前或之后获得 4 个额外的字节。但在这两种情况下，它只需要一次读取。32 位宽数据的 32 位对齐确保它不会跨越 64 位边界。

score 8 · Accepted Answer

物理总线是 64 位宽 ... 8 的倍数 --> 是

但是，还有两个因素需要考虑：

一些 x86 指令集是字节寻址的。有些是 32 位对齐的（这就是为什么你有 4 字节的东西）。但是没有（核心）指令是 64 位对齐的。CPU 可以处理未对齐的数据访问。
如果你关心性能，你应该考虑缓存行，而不是主内存。缓存线更宽。

score 2 · Accepted Answer

他们这样做是有道理的，因为更改为 8 字节对齐将构成 ABI 更改，并且边际性能改进不值得麻烦。

正如其他人已经说过的那样，缓存线很重要。实际内存总线上的所有访问都是根据缓存线（x86 上为 64 字节，IIRC）。请参阅已经提到的“每个程序员需要了解的关于内存的知识”文档。所以实际的内存流量是 64 字节对齐的。

score 1 · Accepted Answer

对于随机访问，只要数据没有错位（例如跨越边界），我认为这并不重要；可以通过硬件中的简单 AND 结构找到数据中的正确地址和偏移量。当一次读取访问不足以获得一个值时，它会变慢。这也是编译器通常将小值（字节等）放在一起的原因，因为它们不必位于特定的偏移量处。short 应该在偶数地址上，32 位在 4 字节地址上，64 位在 8 字节地址上。

请注意，如果您有缓存 involed 和线性数据访问，情况会有所不同。

score 1 · Accepted Answer

您引用的 64 位总线为缓存提供数据。作为 CPU，始终读取和写入整个高速缓存行。高速缓存行的大小始终是 8 的倍数，其物理地址确实以 8 字节偏移对齐。

高速缓存到寄存器的传输不使用外部数据总线，因此该总线的宽度无关紧要。

memory - 32 位 Intel 处理器上的内存对齐

5 回答 5

Related

Reference