我按照 POWER8 的CPI 分解模型对在 IBM POWER8 服务器上运行的应用程序进行了性能分析。
我了解我需要减少由于缓存未命中 ( PM_CMPLU_STALL_DCACHE_MISS
) 或分支错误预测 ( PM_CMPLU_STALL_BRU
) 等原因导致的停顿百分比。POWER7 性能分析教程告诉我们,一个编写良好的应用程序具有很高的最终指令完成百分比 ( PM_1PLUS_PPC_CMPL
)。
我是否正确理解对于 POWER8 我需要最大化指标的百分比PM_GRP_CMPL
?我应该尝试最大化哪些其他基于 PMU 的指标?