7

对于那些致力于程序优化和性能调整的人来说,一个普遍的问题是,您如何确定您的代码是受 CPU 限制还是受内存限制?我总体上理解这些概念,但是如果我说“y”的负载和存储量以及“2y”的计算量,人们如何找到瓶颈?

您还可以弄清楚您将大部分时间花在哪里,并说,如果您在每次循环迭代中将“x”数量的数据加载到缓存中(如果它的内存受限),那么您的代码会运行得更快吗?除了反复试验,还有什么精确的方法可以确定这个“x”吗?

是否有任何工具可以使用,比如 IA-32 或 IA-64 架构?VTune 有帮助吗?

例如,我目前正在执行以下操作:

我有 26 个 8*8 复数双精度矩阵,我必须为这 26 个矩阵中的每一个执行一个长度为 8 的(~4000)个向量的 MVM(矩阵向量乘法)。我使用 SSE 来执行复数乘法。

/*Copy 26 matrices to temporary storage*/
for(int i=0;i<4000;i+=2){//Loop over the 4000 vectors 
    for(int k=0;k<26;k++){//Loop over the 26 matrices
       /*
        Perform MVM in blocks of '2' between kth matrix and 
        'i' and 'i+1' vector
       */     

    }
}

26 个矩阵占用 26kb(L1 高速缓存为 32KB),我已将向量布局在内存中,这样我就有了 stride'1' 访问权限。一旦我对具有 27 个矩阵的向量执行 MVM,我就不会再次访问它们,所以我认为缓存阻塞不会有帮助。我使用了矢量化,但我仍然停留在 60% 的峰值性能上。

我尝试将 64 个向量复制到临时存储中,对于外部循环的每次迭代,我认为它们会在缓存中并提供帮助,但它只会降低性能。我尝试以下列方式使用 _mm_prefetch():当我完成大约一半的矩阵时,我将下一个 'i' 和 'i+1' 向量加载到内存中,但这也没有帮助。

假设它的内存受限,我已经完成了所有这些,但我想确定。有办法吗?

4

1 回答 1

1

据我了解,最好的方法是分析您的应用程序/工作负载。根据输入数据,应用程序/工作负载的特性可能会有很大差异。然而,这些行为可以用几个阶段Ref [2 , 3 ] 来量化,并且直方图可以广泛地说明要优化的工作负载的最频繁路径。您提出的问题还需要针对架构的基准程序 [如 SPEC2006、PARSEC、Media bench 等],并且很难笼统地回答(并且是计算机架构研究的一个积极部分)。但是,对于特定情况,可以针对不同的内存层次说明定量结果。您可以使用以下工具:

  • 性能
  • O型材
  • VTune
  • LikWid
  • LLTng

和其他监控和模拟工具来获取应用程序的分析跟踪。您可以查看性能计数器,如 IPC、CPI(用于 CPU 绑定)和内存访问、缓存未命中、缓存访问,以及其他内存计数器以确定内存边界。如 IPC、每周期内存访问 (MPC),通常用于确定应用程序/工作负载的内存边界。为了专门改进矩阵乘法,我建议使用LAPACK中的优化算法。

于 2013-04-26T07:43:00.407 回答