我已经实现了无锁堆栈,基于 'Concurrency in action' 书籍示例。我想对其进行基准测试并将其与其他无锁堆栈进行比较,即来自 boost::lockfree。我使用谷歌基准框架来进行这些测试,测量不同争用下的单个操作时间(我的操作是指以随机顺序调用的推送/弹出)。
Run on (8 X 3400 MHz CPU s)
CPU Caches:
L1 Data 32K (x4)
L1 Instruction 32K (x4)
L2 Unified 256K (x4)
L3 Unified 6144K (x1)
----------------------------------------------------------------------------------
Benchmark Time CPU Iterations
----------------------------------------------------------------------------------
BM_lockFreeStack/real_time/threads:1 136 ns 136 ns 5145339
BM_lockFreeStack/real_time/threads:2 184 ns 367 ns 3785648
BM_lockFreeStack/real_time/threads:4 207 ns 820 ns 3361952
BM_lockFreeStack/real_time/threads:8 209 ns 1639 ns 3387024
BM_lockFreeStack/real_time/threads:16 167 ns 957 ns 4269504
BM_lockFreeStack/real_time/threads:32 150 ns 590 ns 4866592
BM_boostLockFreeStack/real_time/threads:1 66 ns 66 ns 10510435
BM_boostLockFreeStack/real_time/threads:2 133 ns 265 ns 5713306
BM_boostLockFreeStack/real_time/threads:4 122 ns 475 ns 5809292
BM_boostLockFreeStack/real_time/threads:8 128 ns 944 ns 5432072
BM_boostLockFreeStack/real_time/threads:16 129 ns 989 ns 5461120
BM_boostLockFreeStack/real_time/threads:32 129 ns 1017 ns 5447776
如您所见,我使用了 8 个线程的处理器。令我惊讶的是 16/32 线程 (lockFreeStack) 的结果,其中平均操作时间比 2/4/8 线程的结果短。每次我运行这些测试时,这种结果都是一致的。
这种行为有什么合乎逻辑的解释吗?