c++ - 最快的内联组装自旋锁

Question

我正在用 c++ 编写一个多线程应用程序，其中性能至关重要。在线程之间复制小型结构时，我需要使用大量锁定，为此我选择使用自旋锁。

我对此进行了一些研究和速度测试，我发现大多数实现大致同样快：

Microsoft 的 CRITICAL_SECTION，SpinCount 设置为 1000，得分约 140 个时间单位
使用 Microsoft 的 InterlockedCompareExchange实现此算法的得分约为 95 个时间单位
我还尝试使用一些内联汇编来__asm {}使用类似此代码的内容，它的得分约为 70 个时间单位，但我不确定是否已创建适当的内存屏障。

编辑：这里给出的时间是 2 个线程锁定和解锁自旋锁 1,000,000 次所需的时间。

我知道这并没有太大的区别，但是由于自旋锁是一个被大量使用的对象，人们会认为程序员会同意最快的方法来制作自旋锁。然而，谷歌搜索它会导致许多不同的方法。如果使用内联汇编并使用指令而不是比较 32 位寄存器来实现，我认为上述方法将是最快的。此外，必须考虑内存屏障，这可以通过 LOCK CMPXHG8B （我认为？）来完成，它保证了内核之间共享内存的“独占权”。最后[有人建议]对于繁忙的等待应该伴随着 NOP:REPCMPXCHG8B这将使超线程处理器能够切换到另一个线程，但我不确定这是否属实？

从我对不同自旋锁的性能测试来看，没有太大区别，但出于纯粹的学术目的，我想知道哪一个最快。但是，由于我在汇编语言和内存屏障方面的经验非常有限，如果有人可以为我提供的最后一个示例编写汇编代码，我会很高兴，并在以下模板中提供了 LOCK CMPXCHG8B 和适当的内存屏障：

__asm
{
     spin_lock:
         ;locking code.
     spin_unlock:
         ;unlocking code.
}

score 10 · Accepted Answer

尽管已经有一个公认的答案，但仍有一些遗漏的东西可以用来改进所有答案，取自这篇英特尔文章，所有这些都高于快速锁实现：

旋转易失性读取，而不是原子指令，这避免了不必要的总线锁定，尤其是在高度竞争的锁上。
对竞争激烈的锁使用回退
内联锁，最好使用内联 asm 有害的编译器的内在函数（基本上是 MSVC）。

score 8 · Accepted Answer

我通常不会抱怨有人努力实现快速代码：这通常是一个很好的练习，可以更好地理解编程和更快的代码。

我也不会在这里抱怨，但我可以明确指出，快速自旋锁 3 条指令或更多指令的问题 - 至少在 x86 架构上 - 是徒劳的。

原因如下：

使用典型的代码序列调用自旋锁

lock_variable DW 0    ; 0 <=> free

mov ebx,offset lock_variable
mov eax,1
xchg eax,[ebx]

; if eax contains 0 (no one owned it) you own the lock,
; if eax contains 1 (someone already does) you don't

释放自旋锁是微不足道的

mov ebx,offset lock_variable
mov dword ptr [ebx],0

xchg 指令提高了处理器上的锁定引脚，这实际上意味着我想要在接下来的几个时钟周期内使用总线。该信号通过高速缓存传递到最慢的总线主控设备，通常是 PCI 总线。当每个总线主控设备完成后，locka（锁定确认）信号就会被发回。然后进行实际的交换。问题是 lock/locka 序列需要很长时间。PCI 总线可能以 33MHz 运行，有几个延迟周期。在 3.3 GHz CPU 上，这意味着每个 PCI 总线周期需要一百个 CPU 周期。

根据经验，我假设一个锁需要 300 到 3000 个 CPU 周期才能完成，最后我什至不知道我是否会拥有这个锁。因此，您可以通过“快速”自旋锁节省的几个周期将是海市蜃楼，因为没有像下一个锁那样，这将取决于您在那段时间内的总线情况。

________________编辑________________

我刚刚读到自旋锁是一个“大量使用的对象”。好吧，您显然不明白自旋锁在每次调用时都会消耗大量的 CPU 周期。或者，换一种说法，每次调用它都会失去大量的处理能力。

使用自旋锁（或它们更大的兄弟，临界区）时的技巧是尽可能少地使用它们，同时仍能实现预期的程序功能。在所有地方使用它们很容易，因此您最终会表现不佳。

不仅仅是编写快速代码，还包括组织数据。当您编写“在线程之间复制小型结构”时，您应该意识到完成锁定可能需要比实际复制长数百倍的时间。

________________编辑________________

当您计算平均锁定时间时，它可能会说得很少，因为它是在您的机器上测量的，这可能不是预期的目标（可能具有完全不同的总线使用特性）。对于您的机器，平均值将由各个非常快的时间（当总线主控活动没有干扰时）一直到非常慢的时间（当总线主控干扰很大时）组成。

您可以引入确定最快和最慢情况的代码并计算商以查看自旋锁时间的变化有多大。

________________编辑________________

2016 年 5 月更新。

Peter Cordes 提倡“在非竞争情况下调整锁是有意义的”，并且现代 CPU 上不会出现数百个时钟周期的锁时间，除非在锁变量未对齐的情况下。我开始怀疑我之前的测试程序（用 32 位 Watcom C 编写）是否会受到 WOW64 的阻碍，因为它运行在 64 位操作系统：Windows 7 上。

于是我写了一个64位的程序，用TDM的gcc 5.3编译。该程序使用隐式总线锁定指令变体“XCHG r,m”进行锁定，使用简单的赋值“MOV m,r”进行解锁。在某些锁变体中，锁变量经过预先测试以确定尝试锁是否可行（使用简单的比较“CMP r,m”，可能不会冒险到 L3 之外）。这里是：

// compiler flags used:

// -O1 -m64 -mthreads -mtune=k8 -march=k8 -fwhole-program -freorder-blocks -fschedule-insns -falign-functions=32 -g3 -Wall -c -fmessage-length=0

#define CLASSIC_BUS_LOCK
#define WHILE_PRETEST
//#define SINGLE_THREAD

typedef unsigned char      u1;
typedef unsigned short     u2;
typedef unsigned long      u4;
typedef unsigned int       ud;
typedef unsigned long long u8;
typedef   signed char      i1;
typedef          short     i2;
typedef          long      i4;
typedef          int       id;
typedef          long long i8;
typedef          float     f4;
typedef          double    f8;

#define usizeof(a) ((ud)sizeof(a))

#define LOOPS 25000000

#include <stdio.h>
#include <windows.h>

#ifndef bool
typedef signed char bool;
#endif

u8 CPU_rdtsc (void)
{
  ud tickl, tickh;
  __asm__ __volatile__("rdtsc":"=a"(tickl),"=d"(tickh));
  return ((u8)tickh << 32)|tickl;
}

volatile u8 bus_lock (volatile u8 * block, u8 value)
{
  __asm__ __volatile__( "xchgq %1,%0" : "=r" (value) : "m" (*block), "0" (value) : "memory");

  return value;
}

void bus_unlock (volatile u8 * block, u8 value)
{
  __asm__ __volatile__( "movq %0,%1" : "=r" (value) : "m" (*block), "0" (value) : "memory");
}

void rfence (void)
{
  __asm__ __volatile__( "lfence" : : : "memory");
}

void rwfence (void)
{
  __asm__ __volatile__( "mfence" : : : "memory");
}

void wfence (void)
{
  __asm__ __volatile__( "sfence" : : : "memory");
}

volatile bool LOCK_spinlockPreTestIfFree (const volatile u8 *lockVariablePointer)
{
  return (bool)(*lockVariablePointer == 0ull);
}

volatile bool LOCK_spinlockFailed (volatile u8 *lockVariablePointer)
{
  return (bool)(bus_lock (lockVariablePointer, 1ull) != 0ull);
}

void LOCK_spinlockLeave (volatile u8 *lockVariablePointer)
{
  *lockVariablePointer = 0ull;
}

static volatile u8 lockVariable = 0ull,
                   lockCounter =  0ull;

static volatile i8 threadHold = 1;

static u8 tstr[4][32];    /* 32*8=256 bytes for each thread's parameters should result in them residing in different cache lines */

struct LOCKING_THREAD_STRUCTURE
{
  u8 numberOfFailures, numberOfPreTests;
  f8 clocksPerLock, failuresPerLock, preTestsPerLock;
  u8 threadId;
  HANDLE threadHandle;
  ud idx;
} *lts[4] = {(void *)tstr[0], (void *)tstr[1], (void *)tstr[2], (void *)tstr[3]};

DWORD WINAPI locking_thread (struct LOCKING_THREAD_STRUCTURE *ltsp)
{
  ud n = LOOPS;
  u8 clockCycles;

  SetThreadAffinityMask (ltsp->threadHandle, 1ull<<ltsp->idx);

  while (threadHold) {}

  clockCycles = CPU_rdtsc ();
  while (n)
  {
    Sleep (0);

#ifdef CLASSIC_BUS_LOCK
    while (LOCK_spinlockFailed (&lockVariable)) {++ltsp->numberOfFailures;}
#else
#ifdef WHILE_PRETEST
    while (1)
    {
      do
      {
        ++ltsp->numberOfPreTests;
      } while (!LOCK_spinlockPreTestIfFree (&lockVariable));

      if (!LOCK_spinlockFailed (&lockVariable)) break;
      ++ltsp->numberOfFailures;
    }
#else
    while (1)
    {
      ++ltsp->numberOfPreTests;
      if (LOCK_spinlockPreTestIfFree (&lockVariable))
      {
        if (!LOCK_spinlockFailed (&lockVariable)) break;
        ++ltsp->numberOfFailures;
      }
    }
#endif
#endif
    ++lockCounter;
    LOCK_spinlockLeave (&lockVariable);

#ifdef CLASSIC_BUS_LOCK
    while (LOCK_spinlockFailed (&lockVariable)) {++ltsp->numberOfFailures;}
#else
#ifdef WHILE_PRETEST
    while (1)
    {
      do
      {
        ++ltsp->numberOfPreTests;
      } while (!LOCK_spinlockPreTestIfFree (&lockVariable));

      if (!LOCK_spinlockFailed (&lockVariable)) break;
      ++ltsp->numberOfFailures;
    }
#else
    while (1)
    {
      ++ltsp->numberOfPreTests;
      if (LOCK_spinlockPreTestIfFree (&lockVariable))
      {
        if (!LOCK_spinlockFailed (&lockVariable)) break;
        ++ltsp->numberOfFailures;
      }
    }
#endif
#endif
    --lockCounter;
    LOCK_spinlockLeave (&lockVariable);

    n-=2;
  }
  clockCycles = CPU_rdtsc ()-clockCycles;

  ltsp->clocksPerLock =   (f8)clockCycles/           (f8)LOOPS;
  ltsp->failuresPerLock = (f8)ltsp->numberOfFailures/(f8)LOOPS;
  ltsp->preTestsPerLock = (f8)ltsp->numberOfPreTests/(f8)LOOPS;

//rwfence ();

  ltsp->idx = 4u;

  ExitThread (0);
  return 0;
}

int main (int argc, char *argv[])
{
  u8 processAffinityMask, systemAffinityMask;

  memset (tstr, 0u, usizeof(tstr));

  lts[0]->idx = 3;
  lts[1]->idx = 2;
  lts[2]->idx = 1;
  lts[3]->idx = 0;

  GetProcessAffinityMask (GetCurrentProcess(), &processAffinityMask, &systemAffinityMask);

  SetPriorityClass (GetCurrentProcess(), HIGH_PRIORITY_CLASS);
  SetThreadAffinityMask (GetCurrentThread (), 1ull);

  lts[0]->threadHandle = CreateThread (NULL, 65536u, (void *)locking_thread, (void *)lts[0], 0, (void *)&lts[0]->threadId);
#ifndef SINGLE_THREAD
  lts[1]->threadHandle = CreateThread (NULL, 65536u, (void *)locking_thread, (void *)lts[1], 0, (void *)&lts[1]->threadId);
  lts[2]->threadHandle = CreateThread (NULL, 65536u, (void *)locking_thread, (void *)lts[2], 0, (void *)&lts[2]->threadId);
  lts[3]->threadHandle = CreateThread (NULL, 65536u, (void *)locking_thread, (void *)lts[3], 0, (void *)&lts[3]->threadId);
#endif

  SetThreadAffinityMask (GetCurrentThread (), processAffinityMask);

  threadHold = 0;

#ifdef SINGLE_THREAD
  while (lts[0]->idx<4u) {Sleep (1);}
#else
  while (lts[0]->idx+lts[1]->idx+lts[2]->idx+lts[3]->idx<16u) {Sleep (1);}
#endif

  printf ("T0:%1.1f,%1.1f,%1.1f\n", lts[0]->clocksPerLock, lts[0]->failuresPerLock, lts[0]->preTestsPerLock);
  printf ("T1:%1.1f,%1.1f,%1.1f\n", lts[1]->clocksPerLock, lts[1]->failuresPerLock, lts[1]->preTestsPerLock);
  printf ("T2:%1.1f,%1.1f,%1.1f\n", lts[2]->clocksPerLock, lts[2]->failuresPerLock, lts[2]->preTestsPerLock);
  printf ("T3:%1.1f,%1.1f,%1.1f\n", lts[3]->clocksPerLock, lts[3]->failuresPerLock, lts[3]->preTestsPerLock);

  printf ("T*:%1.1f,%1.1f,%1.1f\n", (lts[0]->clocksPerLock+  lts[1]->clocksPerLock+  lts[2]->clocksPerLock+  lts[3]->clocksPerLock)/  4.,
                                    (lts[0]->failuresPerLock+lts[1]->failuresPerLock+lts[2]->failuresPerLock+lts[3]->failuresPerLock)/4.,
                                    (lts[0]->preTestsPerLock+lts[1]->preTestsPerLock+lts[2]->preTestsPerLock+lts[3]->preTestsPerLock)/4.);

  printf ("LC:%u\n", (ud)lockCounter);

  return 0;
}

该程序在基于 DELL i5-4310U 的计算机上运行，该计算机具有 DDR3-800、2 个内核/2 个 2.7GHz 的 HT 和一个通用的 L3 缓存。

首先，WOW64 的影响似乎可以忽略不计。

执行非竞争锁定/解锁的单个线程能够每 110 个周期执行一次。调整无争用锁是没有用的：为增强单个 XCHG 指令而添加的任何代码只会使其变慢。

随着四个 HT 用锁定尝试轰炸锁定变量，情况发生了根本性的变化。实现成功锁定所需的时间跃升至 994 个周期，其中很大一部分可归因于 2.2 次失败的锁定尝试。换句话说，在高争用情况下，平均必须尝试 3.2 次锁才能获得成功的锁。显然110个周期并没有变成110*3.2而是更接近110*9。因此，其他机制在这里发挥作用，就像在旧机器上的测试一样。此外，平均 994 个周期包含 716 和 1157 之间的范围

The lock variants implementing pre-testing required about 95% of the cycles reuired by the simplest variant (XCHG). On average they would perform 17 CMPs to find it feasible to attempt 1.75 locks of which 1 was successful. I recommend using pre-testing not only because it is faster: it imposes less strain on the bus-locking mechanism (3.2-1.75=1.45 fewer lock attempts) even though it increases the complexity slightly.

score 5 · Accepted Answer

维基百科有一篇关于自旋锁的好文章，这里是 x86 实现

http://en.wikipedia.org/wiki/Spinlock#Example_implementation

请注意，它们的实现不使用“lock”前缀，因为它在 x86 上对于“xchg”指令是多余的——它隐含地具有锁定语义，正如 Stackoverflow 讨论中所讨论的：

在多核 x86 上，是否需要 LOCK 作为 XCHG 的前缀？

REP:NOP 是 PAUSE 指令的别名，您可以在此处了解更多信息

x86 暂停指令如何在自旋锁中工作*并且*它可以在其他场景中使用吗？

关于内存屏障的问题，这里有你可能想知道的一切

内存屏障：软件黑客的硬件视图 Paul E. McKenney

http://irl.cs.ucla.edu/~yingdi/paperreading/whymb.2010.06.07c.pdf

score 3 · Accepted Answer

看看这里： x86 spinlock using cmpxchg

感谢科里·尼尔森

__asm{
spin_lock:
xorl %ecx, %ecx
incl %ecx
spin_lock_retry:
xorl %eax, %eax
lock; cmpxchgl %ecx, (lock_addr)
jnz spin_lock_retry
ret

spin_unlock:
movl $0 (lock_addr)
ret
}

另一个消息来源说： http ://www.geoffchappell.com/studies/windows/km/cpu/cx8.htm

       lock    cmpxchg8b qword ptr [esi]
is replaceable with the following sequence

try:
        lock    bts dword ptr [edi],0
        jnb     acquired
wait:
        test    dword ptr [edi],1
        je      try
        pause                   ; if available
        jmp     wait

acquired:
        cmp     eax,[esi]
        jne     fail
        cmp     edx,[esi+4]
        je      exchange

fail:
        mov     eax,[esi]
        mov     edx,[esi+4]
        jmp     done

exchange:
        mov     [esi],ebx
        mov     [esi+4],ecx

done:
        mov     byte ptr [edi],0

这里是关于无锁与锁实现的讨论：http: //newsgroups.derkeiler.com/Archive/Comp/comp.programming.threads/2011-10/msg00009.html

score -1 · Accepted Answer

只是问问：

在深入研究自旋锁和几乎无锁的数据结构之前：

您是否 - 在您的基准测试和您的应用程序中 - 确保竞争线程保证在不同的内核上运行？

如果不是这样，您最终可能会得到一个在您的开发机器上运行良好但在该领域很糟糕/失败的程序，因为一个线程必须同时是您的自旋锁的锁定器和解锁器。

给你一个数字：在 Windows 上，你有 10 毫秒的标准时间片。如果您不确定两个物理线程参与锁定/解锁，您最终将每秒锁定/解锁大约 500 次，结果将非常糟糕

c++ - 最快的内联组装自旋锁

5 回答 5

Related

Reference