c++ - 编写一个程序来获取 CPU 缓存大小和级别

Question

我想编写一个程序来获取我的缓存大小（L1，L2，L3）。我知道它的总体思路。

分配一个大数组
每次访问不同大小的部分。

所以我写了一个小程序。这是我的代码：

#include <cstdio>
#include <time.h>
#include <sys/mman.h>

const int KB = 1024;
const int MB = 1024 * KB;
const int data_size = 32 * MB;
const int repeats = 64 * MB;
const int steps = 8 * MB;
const int times = 8;

long long clock_time() {
    struct timespec tp;
    clock_gettime(CLOCK_REALTIME, &tp);
    return (long long)(tp.tv_nsec + (long long)tp.tv_sec * 1000000000ll);
}

int main() {
    // allocate memory and lock
    void* map = mmap(NULL, (size_t)data_size, PROT_READ | PROT_WRITE, 
                     MAP_ANONYMOUS | MAP_PRIVATE, 0, 0);
    if (map == MAP_FAILED) {
        return 0;
    }
    int* data = (int*)map;

    // write all to avoid paging on demand
    for (int i = 0;i< data_size / sizeof(int);i++) {
        data[i]++;
    }

    int steps[] = { 1*KB, 4*KB, 8*KB, 16*KB, 24 * KB, 32*KB, 64*KB, 128*KB, 
                    128*KB*2, 128*KB*3, 512*KB, 1 * MB, 2 * MB, 3 * MB, 4 * MB, 
                    5 * MB, 6 * MB, 7 * MB, 8 * MB, 9 * MB};
    for (int i = 0; i <= sizeof(steps) / sizeof(int) - 1; i++) {
        double totalTime = 0;    
        for (int k = 0; k < times; k++) {
            int size_mask = steps[i] / sizeof(int) - 1;
            long long start = clock_time();
            for (int j = 0; j < repeats; j++) {
                ++data[ (j * 16) & size_mask ];
            }
            long long end = clock_time();
            totalTime += (end - start) / 1000000000.0;
        }
        printf("%d time: %lf\n", steps[i] / KB, totalTime);
    }
    munmap(map, (size_t)data_size);
    return 0;
}

然而，结果太奇怪了：

1 time: 1.989998
4 time: 1.992945
8 time: 1.997071
16 time: 1.993442
24 time: 1.994212
32 time: 2.002103
64 time: 1.959601
128 time: 1.957994
256 time: 1.975517
384 time: 1.975143
512 time: 2.209696
1024 time: 2.437783
2048 time: 7.006168
3072 time: 5.306975
4096 time: 5.943510
5120 time: 2.396078
6144 time: 4.404022
7168 time: 4.900366
8192 time: 8.998624
9216 time: 6.574195

我的 CPU 是 Intel(R) Core(TM) i3-2350M。L1 Cache：32K（用于数据），L2 Cache 256K，L3 Cache 3072K。好像没有遵守任何规则。我无法从中获取缓存大小或缓存级别的信息。有人可以帮忙吗？提前致谢。

更新： 遵循@Leeor 的建议，我使用j*64而不是j*16. 新结果：

1 time: 1.996282
4 time: 2.002579
8 time: 2.002240
16 time: 1.993198
24 time: 1.995733
32 time: 2.000463
64 time: 1.968637
128 time: 1.956138
256 time: 1.978266
384 time: 1.991912
512 time: 2.192371
1024 time: 2.262387
2048 time: 3.019435
3072 time: 2.359423
4096 time: 5.874426
5120 time: 2.324901
6144 time: 4.135550
7168 time: 3.851972
8192 time: 7.417762
9216 time: 2.272929
10240 time: 3.441985
11264 time: 3.094753

两个峰值，4096K 和 8192K。还是很奇怪。

score 6 · Accepted Answer

我不确定这是否是这里唯一的问题，但这绝对是最大的问题——您的代码会很快触发硬件流预取器，使您几乎总是遇到 L1 或 L2 延迟。

更多细节可以在这里找到 - http://software.intel.com/en-us/articles/optimizing-application-performance-on-intel-coret-microarchitecture-using-hardware-implemented-prefetchers

对于您的基准测试您应该禁用它们（通过 BIOS 或任何其他方式），或者至少通过替换j*16（* 4 bytes per int = 64B，一个缓存行 - 流检测器的经典单位步幅）来延长您的步骤，j*64（4 个缓存行）。原因是 - 预取器可以为每个流请求发出 2 次预取，因此当您执行单元步幅时它会在您的代码之前运行，当您的代码跳过 2 行时可能仍会领先您一点，但随着时间的推移变得几乎无用跳跃（3 不好，因为你的模数，你需要一个 step_size 的分隔符）

用新结果更新问题，我们可以弄清楚这里是否还有其他问题。

EDIT1：好的，我运行了固定代码并得到了-

1 time: 1.321001
4 time: 1.321998
8 time: 1.336288
16 time: 1.324994
24 time: 1.319742
32 time: 1.330685
64 time: 1.536644
128 time: 1.536933
256 time: 1.669329
384 time: 1.592145
512 time: 2.036315
1024 time: 2.214269
2048 time: 2.407584
3072 time: 2.259108
4096 time: 2.584872
5120 time: 2.203696
6144 time: 2.335194
7168 time: 2.322517
8192 time: 5.554941
9216 time: 2.230817

如果您忽略几列会更有意义 - 您在 32k（L1 大小）之后跳转，而不是在 256k（L2 大小）之后跳转，我们得到的结果对于 384 来说太好了，并且仅在 512k 处跳转。最后一次跳跃是 8M（我的 LLC 大小），但 9k 又被打破了。

这使我们能够发现下一个错误 - 只有当它是 2 的幂时，使用大小掩码进行与运算才有意义，否则您不会回绕，而是再次重复一些最后的地址（由于它是新鲜的，因此最终会得到乐观的结果在缓存中）。

尝试用替换... & size_mask，% steps[i]/sizeof(int)模数更昂贵，但如果你想拥有这些大小，你需要它（或者，一个运行索引，只要它超过当前大小就会归零）

score 4 · Accepted Answer

我认为您最好查看CPUID指令。这不是微不足道的，但网络上应该有信息。

此外，如果您使用的是 Windows，则可以使用GetLogicalProcessorInformation函数。请注意，它仅存在于 Windows XP SP3 及更高版本中。我对 Linux/Unix 一无所知。

score 2 · Accepted Answer

如果您使用的是 GNU/Linux，您只需阅读文件/proc/cpuinfo的内容即可了解更多详细信息/sys/devices/system/cpu/*。在 UNIX 下，不定义 API 是很常见的，因为普通文件无论如何都可以完成这项工作。

我还要看看util-linux的源代码，它包含一个名为lscpu的程序。这应该给您一个如何检索所需信息的示例。

// 更新
http://git.kernel.org/cgit/utils/util-linux/util-linux.git/tree/sys-utils/lscpu.c

如果只是看看他们的来源。它基本上是从上面提到的文件中读取的，仅此而已。因此，从该文件中读取也是绝对有效的，它们是由内核提供的。

c++ - 编写一个程序来获取 CPU 缓存大小和级别

3 回答 3

Related

Reference