推一些栅栏并不足以赋予原子性。
对于单线程代码,它们并没有真正的好处,CPU 会知道对负载进行排序并在内部存储以实现正确的执行,因为它的核心是串行运行的(即使实际上,大多数现代 CPU 都会按顺序运行它)。
围栏的好处可能会出现在这样的场景中 -
thread1: | thread 2:
store [x],1 | store [y],1
load [y] -> r1 | load [x] -> r2
这是内存一致性问题的典型示例 - 如果读取 2 个寄存器,程序员可能期望的结果是 1,1(两个存储首先发生,然后两个加载),或 1,0 或 0,1(如果其中一个线程跑在另一个之前。你没想到的是 0,0,因为至少有一个线程应该已经完成了写入。但是,通过宽松的内存排序,这可能是可能的 - 加载是在早期完成的管道,并且存储很晚。由于地址中没有线程内别名(假设 x!= y),CPU 没有采取任何措施来防止这种情况发生。
如下添加栅栏将保证如果其中一个线程达到负载,则前面的存储必须已被调度和观察。这意味着您仍然可以获得 0,1 和 1,0(如果两个 store-fence-load 首先在一个线程中完成),当然还有 1,1,但您不能再获得 0,0。
thread1: | thread 2:
store [x],1 | store [y],1
mfence | mfence
load [y] -> r1 | load [x] -> r2
另请参阅 - http://bartoszmilewski.com/2008/11/05/who-ordered-memory-fences-on-an-x86/
但是,您要求原子性-这更强大,让我们举个例子-
BTS WORD PTR [addr], 0
MFENCE
如果我们将它复制到 2 个线程中,它基本上就像以前一样,除了栅栏在加载和存储之后(它们被分组到同一指令中的事实不会改变完成的基本操作)。是什么阻止您先进行两次读取,在两个线程上读取 0,然后再进行存储(这将涉及缓存中的一些 MESI 状态竞争,因为如果两个线程位于不同的内核上,它们将争夺所有权),但最终会导致两家商店都写入该行。然后你可以随心所欲地执行 mfences,这不会把你从已经破坏的原子性中拯救出来。
保证原子性的是一个很好的老式锁。即使以这种方式读取,线程也无法同时共享该行。它通常被认为是一种缓慢但必要的邪恶,但一些现代 CPU 甚至可能在硬件中优化它们!请参阅 - http://en.wikipedia.org/wiki/Transactional_Synchronization_Extensions
编辑:经过一番搜索,我相信导致这个问题的原因与 c++11 中原子关键字的定义方式有关。这些链接 - Concurrency: Atomic and volatile in C++11 memory model和http://bartoszmilewski.com/2008/12/01/c-atomics-and-memory-ordering/表明一些实现是通过在商店后面推mfences。但是,我不认为这假装暗示对原子变量执行的任何常规(非库)操作都必然是原子的。无论如何,这个机制应该提供多种内存一致性模型,所以我们需要在这里更具体
EDIT2:似乎确实有一个大的“运动”(不知道如何称呼它们:)试图减少锁的必要性,这是一个有趣的部分: http: //preshing.com/20120612/an-introduction-to-无锁编程/ . 这主要是关于软件设计和能够区分真正潜在的数据竞争,但底线似乎是总是需要一些锁。c++11 的添加虽然使给定的一致性模型的工作更轻松,并且消除了程序员实现硬件特定解决方案的需要,但仍可能被迫落入旧解决方案。引用:Be aware that the C++11 atomic standard does not guarantee that the implementation will be lock-free on every platform
。