9

根据此https://www.cl.cam.ac.uk/~pes20/cpp/cpp0xmappings.html,已发布的存储MOV在 x86(包括 x86-64)上实现为(到内存中)。

根据他的http://en.cppreference.com/w/cpp/atomic/memory_order

memory_order_release

具有此内存顺序的存储操作执行释放操作:当前线程中的任何内存访问都不能在此存储之后重新排序。这确保当前线程中的所有写入在获取或相同原子变量的其他线程中可见,并且将依赖项携带到原子变量中的写入在消耗相同原子的其他线程中变得可见。

我知道当使用memory_order_release时,之前完成的所有内存存储都应该在此之前完成。

int a;
a = 10;
std::atomic<int> b;
b.store(50, std::memory_order_release); // i can be sure that 'a' is already 10, so processor can't reorder the stores to 'a' and 'b'

问题:一个裸指令(没有明确的内存围栏)怎么可能MOV足以满足这种行为?如何MOV告诉处理器完成所有以前的存储?

4

2 回答 2

6

在运行时有内存重新排序(由 CPU 完成),在编译时有内存重新排序。请阅读Jeff Preshing 关于编译时重新排序的文章(以及该博客上的许多其他优秀文章)以获取更多信息。

memory_order_release防止编译器重新排序对数据的访问,以及发出任何必要的隔离或特殊指令。在 x86 asm 中,普通的加载和存储已经具有获取/释放语义,因此阻塞编译时重新排序对于 acq_rel 就足够了,但对于 seq_cst 则不是。

于 2015-04-28T15:57:26.970 回答
5

这似乎是映射,至少在使用英特尔编译器编译的代码中,我看到:

0000000000401100 <_Z5storeRSt6atomicIiE>:
  401100:       48 89 fa                mov    %rdi,%rdx
  401103:       b8 32 00 00 00          mov    $0x32,%eax
  401108:       89 02                   mov    %eax,(%rdx)
  40110a:       c3                      retq
  40110b:       0f 1f 44 00 00          nopl   0x0(%rax,%rax,1)

0000000000401110 <_Z4loadRSt6atomicIiE>:
  401110:       48 89 f8                mov    %rdi,%rax
  401113:       8b 00                   mov    (%rax),%eax
  401115:       c3                      retq
  401116:       0f 1f 00                nopl   (%rax)
  401119:       0f 1f 80 00 00 00 00    nopl   0x0(%rax)

对于代码:

#include <atomic>
#include <stdio.h>

void store( std::atomic<int> & b ) ;

int load( std::atomic<int> & b ) ;

int main()
{
   std::atomic<int> b ;

   store( b ) ;

   printf("%d\n", load( b ) ) ;

   return 0 ;
}

void store( std::atomic<int> & b )
{
   b.store(50, std::memory_order_release ) ;
}

int load( std::atomic<int> & b )
{
   int v = b.load( std::memory_order_acquire ) ;

   return v ;
}

当前的英特尔架构文档第 3 卷(系统编程指南)很好地解释了这一点。看:

8.2.2 P6 和最新处理器系列中的内存排序

  • 读取不会与其他读取重新排序。
  • 写入不会与较旧的读取一起重新排序。
  • 对内存的写入不会与其他写入重新排序,但以下情况除外: ...

那里解释了完整的内存模型。我假设英特尔和 C++ 标准人员已经详细合作,为每个可能的内存顺序操作确定了最佳映射,该映射符合第 3 卷中描述的内存模型,并且已经确定了普通存储和加载在这些情况下就足够了。

请注意,仅仅因为 x86-64 上的这个有序存储不需要特殊说明,并不意味着这将是普遍正确的。对于 powerpc,我希望在 store 中看到类似 lwsync 的指令,而在 hpux (ia64) 上,编译器应该使用 st4.rel 指令。

于 2015-04-28T15:48:53.277 回答