2

我想创建屋顶线模型,但每字节比率的算法失败有问题。你能解释一下如何计算吗?该算法使用 5 点模板进行计算。

这是算法

for(int i=1; i<m-1; ++i) {
   for(int j=1; j<n-1; ++j) {
       outMax[i][j] = max( inMax[i][j], inMax[i][j-1], inMax[i][j+1],
                           inMax[i-1][j], inMax[i+1][j] );
   }
}
swap(inMax, outMax)

for(int i=1; i<m-1; ++i) {
   for(int j=1; j<n-1; ++j) {
      outMin[i][j] = min( inMin[i][j], inMin[i][j-1], inMin[i][j+1],
                          inMin[i-1][j], inMin[i+1][j] );
   }
}
swap(inMax, outMax)
4

1 回答 1

3

通常,屋顶线是每个循环或每个程序的。所以我可能会考虑第一个循环的 flop/byte 和第二个循环。

对于每个循环:

  1. 您需要估计在循环的单次迭代中执行的操作数量(对于屋顶线和翻转/字节算术强度)通常等于所有 ALU(乘法、加法、除法等)操作的数量。(就硬件指令而言,您必须考虑不会导致生成 MOV* 或跳转指令的操作)。在您的情况下,您只需要考虑比较次数(因为 min/max 正在处理比较)。在您的情况下,确切的比较次数取决于 min()/max() 函数的实现。

  2. 你必须估计你从/到inMax(或者在第二种情况下从/到inMin)读取和写入了多少字节;再次,您每次迭代都执行此操作。在您的情况下,您肯定会阅读 5*sizeof(double) == 40 bytes。你至少写了一个双重。如何在 min()/max() 函数中读/写内存取决于它的实现。

  3. 您必须将这两个值除以彼此。在您的情况下,触发器/字节可能会像 0.1,取决于 min()/max() 算法。

与此同时,C/C++/Fortran 程序中每个循环和函数的自动Roofline 模型生成(连同 flop/byte 指标)作为 Intel Advisor 产品 startig 2017 版本的一流功能提供,请参阅https:// software.intel.com/en-us/articles/intel-advisor-roofline,https://www.codeproject.com/Articles/1169323/Intel-Advisor- _ _ Intel Advisor Roofline:每个圆圈对应一些循环/函数; 触发器/字节比率在水平轴上

请记住,一些屋顶线变化在如何定义“字节”值方面有所不同。

找出模板的翻牌/字节和屋顶线模型是屋顶线专家和开发人员非常热门的话题。因此,通过查看下面的链接,您可能会找到足够的模板屋顶线示例以遵循并在您的特定情况下重新应用,无论是否考虑 DRAM 与 L1:

http://icsc2014.sjtu.edu.cn/wp-content/uploads/2014/05/Tutorial-Leopold1.pdf(特别是从第17页开始)

http://blogs.fau.de/hager/files/2014/05/Roofline_ECM_SPPEXA_PhD_2014.pdf

于 2015-08-21T17:55:45.137 回答