“callgrind”的相关标签问题

0 投票

1 回答

1289 浏览

parallel-processing - Callgrind 在分析并行代码时测量什么？

我想分析我的并行代码（mpi 和 omp）

我发现 Callgrind 非常易于使用和分析（使用 Kcachegrind）串行代码，因为它可以为您提供在不同功能上花费的相对时间。

运行并行代码时它会给我什么？它会只监视主进程还是会汇总所有进程？

它可以检测死锁或一个进程正在等待另一个进程的位置吗？

在分析并行代码时是否有更好的工具可以使用？

2015-09-23T23:09:37.667

0 投票

2 回答

823 浏览

c++ - 跳过 Qt Valgrind Function Profiler 中的代码

在 Qt 中，您可以集成valgrind来分析您的代码。我在分析模式下使用Valgrind 函数分析器并点击开始按钮。问题是，我有一个我不感兴趣的庞大启动序列。

我在valgrind/callgrind.h中找到了可以帮助我的定义：

CALLGRIND_START_INSTRUMENTATION
CALLGRIND_STOP_INSTRUMENTATION
CALLGRIND_DUMP_STATS

根据这篇文章，我必须使用以下选项执行valgrind ：

valgrind --tool=callgrind --instr-atstart=no ./application

但是我如何在 Qt 中做到这一点？我仍然想使用漂亮的 GUI 和导航。谢谢！

c++qt valgrind callgrind

2015-09-25T11:13:14.603

0 投票

2 回答

1345 浏览

c++ - 如何使用 KCachegrind 和 Callgrind 仅测量我的部分代码？

我想使用valgrind来分析我的代码。问题是，我有一个我不感兴趣的巨大启动序列。

我在valgrind/callgrind.h中找到了可以帮助我的定义：

CALLGRIND_START_INSTRUMENTATION
CALLGRIND_STOP_INSTRUMENTATION
CALLGRIND_DUMP_STATS

根据这篇文章，我必须使用以下选项执行valgrind ：

valgrind --tool=callgrind --instr-atstart=no ./application

当我这样做时，会创建两个文件：

callgrind.out.16060
callgrind.out.16060.1

然后我想使用 kcachegrind 来可视化我的结果。这很好用，但跳过我的启动序列的 makros 似乎什么也没做。我必须做什么才能仅在我想要的地方测量性能？

c++valgrind callgrind kcachegrind

2015-10-02T10:26:19.243

0 投票

1 回答

1914 浏览

c++ - Valgrind - callgrind Profiler：如何知道哪个函数需要更多时间

我正在尝试使用 valgrind - callgrind 工具来分析某些可执行文件。我已经使用callgrind_annotate --auto=yes. 创建的输出告诉我 Ir count ，根据我的理解，它是特定指令被调用的次数，但我想知道代码的哪一部分在执行中花费了最大时间。

我怎么知道呢？

在我的应用程序中，我想找到花费更多时间的部分......可能在某些情况下，某些函数被调用的时间比其他函数更多......但是被调用的时间更少的函数比其他

c++valgrind callgrind

2015-10-30T11:07:22.343

0 投票

3 回答

8524 浏览

valgrind - 使 callgrind 显示 kcachegrind 调用图中的所有函数调用

我正在使用 valgrind 工具 - callgrind 和 kcachegrind 来分析一个大型项目，并且想知道是否有一种方法可以让 callgrind 报告所有函数（不仅仅是最昂贵的函数）的统计信息。

具体来说 - 当我在 kcachegrind 中可视化调用图时，它只包含那些非常昂贵的函数，但我想知道是否有办法将项目中的所有函数都包含在调用图中。用于生成分析信息的命令如下：

我不确定是否必须为 valgrind 提供任何选项，或者可能以不同的优化方式编译应用程序。这可能是微不足道的，但我找不到解决方案。对此高度赞赏的任何指针。

谢谢！

valgrind callgrind kcachegrind

2015-11-17T23:51:05.350

0 投票

1 回答

1002 浏览

c++ - 需要帮助了解 kcachegrind

我试图了解kcachegrind，那里似乎没有太多信息，例如，在左侧窗口中，什么是“Self”，什么是“incl.”？（见1 个核心）。

我做了一些弱扩展测试，没有通信，所以我猜这与缓存未命中有关。但据我所见，1 核和 16 核的数据未命中数相同，请参阅：16 cores。

我可以看到 1 核和 16 核之间的唯一区别是，在 16 核上调用 memcpy 的次数要少得多（我可以解释）。但我仍然无法弄清楚为什么在一个核心上，执行时间是 0.62 秒，而在 16 个核心上，执行时间更接近 1 秒。每个处理器都在做相同数量的工作。如果有人能告诉我在 kcachegrind 中寻找什么，那就太棒了，这是我第一次使用 kcachegrind 和 valgrind。

编辑：我的代码以压缩行格式连接矩阵。它涉及循环子矩阵的条目并使用 memcpy 将值复制到结果矩阵中。这是代码： - 我不能发布超过 2 个链接......所以我会在评论中发布它。

我只在循环本身上启动了 valgrind，循环也是 0.62 秒执行时间和 1 秒执行时间之间的差异。花费最多时间的部分是对 memcpy 的调用（下面 github gist 中的第 37 行），当我将其注释掉时，我的代码执行时间不到 0.2 秒，尽管 1 到 16 个内核之间仍然有增加（大约增加 30%）。

我在一个包含 24 个内核的 haswell 节点上运行我的代码（两个英特尔® 至强® 处理器 E5-2690 v3）

每个核心有 5GB 内存。

c++valgrind call-graph callgrind kcachegrind

2016-01-26T15:43:05.713

0 投票

5 回答

21954 浏览