Intel x86/x86_64 系统有 3 种内存屏障:lfence、sfence 和 mfence。就它们的使用而言的问题。对于顺序语义 (SC) 足以MOV [addr], reg + MFENCE
用于所有需要 SC 语义的存储单元。但是,您可以整体编写代码,反之亦然:MFENCE + MOV reg, [addr]
. 显然感觉,如果存储到内存的数量通常少于从中加载的数量,那么使用 write-barrier 的总成本会更低。并且在此基础上,我们必须对内存使用顺序存储,进行了另一个优化 - [LOCK] XCHG,这可能更便宜,因为“MFENCE inside in XCHG”仅适用于使用的内存缓存行XCHG(0:28:20 的视频说 MFENCE 比 XCHG 贵)。
http://www.cl.cam.ac.uk/~pes20/cpp/cpp0xmappings.html
C/C++11 操作 x86 实现
- 加载 Seq_Cst:MOV(从内存中)
- Store Seq Cst: (LOCK) XCHG // 替代: MOV (入内存),MFENCE
注意:有一个 C/C++11 到 x86 的替代映射,而不是锁定(或隔离) Seq Cst 存储锁定/隔离 Seq Cst 负载:
- 加载 Seq_Cst: LOCK XADD(0) // 备选方案:MFENCE,MOV(从内存中)
- Store Seq Cst: MOV (入内存)
不同之处在于 ARM 和 Power 内存屏障仅与 LLC(Last Level Cache)交互,而 x86 与较低级别的缓存 L1/L2 交互。在 x86/x86_64 中:
lfence
在Core1上:(CoreX-L1)->(CoreX-L2)-> L3->(Core1-L2)->(Core1-L1)sfence
在Core1上:(Core1-L1)->(Core1-L2)-> L3->(CoreX-L2)->(CoreX-L1)
在 ARM 中:
ldr; dmb;
: L3-> (Core1-L2) -> (Core1-L1)dmb; str; dmb;
: (Core1-L1) -> (Core1-L2) -> L3
GCC 4.8.2 编译的 C++11 代码 - x86_64 中的 GDB:
std::atomic<int> a;
int temp = 0;
a.store(temp, std::memory_order_seq_cst);
0x4613e8 <+0x0058> mov 0x38(%rsp),%eax
0x4613ec <+0x005c> mov %eax,0x20(%rsp)
0x4613f0 <+0x0060> mfence
但是为什么在x86/x86_64 Sequential Semantic (SC) 上使用 throughMOV [addr], reg + MFENCE
而不是MOV [addr], reg + SFENCE
,为什么我们需要 full-fenceMFENCE
而不是SFENCE
那里?