根据分析器用户指南:
flop_count_sp:非谓词线程执行的单精度浮点运算数(加法、乘法和乘法累加)。每个乘法累加操作都会为计数贡献 2。该计数不包括特殊操作。
inst_fp_32:非谓词线程(算术、比较等)执行的单精度浮点指令数
我有一个带有探查器输出的内核,可以添加到以下内容:
flop_count_sp = flop_count_sp_add + flop_count_sp_mul + 2 * flop_count_sp_fma
inst_fp_32 = flop_count_sp_add + flop_count_sp_mul + flop_count_sp_fma
鉴于这些指标中的数字,我想知道这里的操作是什么,指令是什么?似乎 afma
是一个指令,但是两个操作。而add
andmul
是一个指令和一个操作。由于 SASS 程序集由分析器计算。是否有任何指令不计为操作?或相反亦然。我只想知道 nvprof 和 nvvp 指标的上下文。
另外,当我们谈论 TFLOP/s 的峰值性能时,OP
这里对应于我猜的操作?如果我想估计诸如计算到全局内存访问(CGMA)之类的东西,我应该使用flop_count_sp
而不是inst_fp_32
计算部分吗?提前致谢。