我正在从事一个大学项目,该项目要求我对在 MKL (11.1.) 中实现的一些三对角特征求解器进行细分。所以我为此实现了一些测试平台,现在,我试图在 vtune(英特尔 VTune Amplifier XE 2013 Update 16)中对此进行分析。我需要找到瓶颈,即代码的哪一部分(MKL,不是我的)以及特征求解器调用的哪些函数我花费的时间最多。
为此,我希望获得每个函数及其被调用者所花费的总时间。但是,我得到的只是每个功能的自我时间。
我的代码是用 icc 14.0/3.174 编译的,我尝试了两种方法,静态和动态链接 MKL。
我希望我不会在这里忽略一些愚蠢的事情。我也非常愿意接受有关如何找到所需值的其他建议。