1

所以我测量了访问 ARM Cortex-A15 的 L2 缓存的周期。我通过分配一个字节来做到这一点

  • 使地址无效
  • 读取 PMCCNTR 寄存器
  • 使用 ldr 访问分配字节的内存位置
  • 再次读取 PMCCNTR 寄存器
  • 从第二个测量值中减去第一个测量值

我有大约 240 个缓存访问周期和 350 个非缓存访问周期。我还使用了 ISB、DMB 和 DSB。这些数字听起来准确吗?我似乎无法找到可与之比较的官方资源。也许你可以指出我正确的方向。

4

2 回答 2

3

您不是在用您的方法测量延迟,而是在测量开销。

测量延迟的标准方法是使用指针追踪测试,初始化指针链以便获得相关访问,并控制它们的位置,以便它们适合(或不适合)在指定大小的缓存中。程序的其余部分是相同的,只是您不会使任何内容无效。

像这样的东西(用于说明,未经测试)

// prepare a chain of N pointers in a buffer
// Assume unsigned int has the same size as a pointer
unsigned int Buffer[N] ;

// chain them, here in a simple direct fashion.  
// You can also use a randomized sequence if you work in main memory
for (i=1; i<N; i++) { Buffer[i] = (unsigned int) &(Buffer[i-1]) ; }

// close the chain
Buffer[0] = (unsigned int) &(Buffer[N-1]) ;

// measure M accesses
Start =  PMCCNTR() ;
p = &(Buffer[0]) ;
for (i=M; i>0; i--) {
  p = *p;
}
Stop = PMCCNTR();
于 2013-11-08T04:57:33.717 回答
2

由于测量开销和随机干扰,测量单个接入会受到不准确的影响。您应该测量大量访问的时间,以获得可以更好地反映您想要什么的摊销延迟。要测量平均访问时间,您还需要确保这些访问不是并行运行(这将测量吞吐量,而不是延迟),因此添加一些错误的依赖关系,例如将先前访问的字节的内容添加到下一个地址(之后将所有这些字节初始化为零)。

另外,你没有说你是如何使地址无效的,但我猜你也把它扔出了 L2,实际上只是在测量内存延迟。

于 2013-11-05T13:10:25.850 回答