0

我需要测量在我们的集群上运行的串行代码的运行时间。在独占模式下,即没有其他用户在使用我的节点,代码的挂墙时间变化很大,从2:30m到3:20m不等。代码在每次运行中都做同样的事情。如果挂起时间的巨大差异是由 GPFS 文件系统引起的,我正在徘徊,因为代码读取和写入存储在 GPFS 文件系统中的文件。我的问题是是否有一个工具可以查看 GPFS i/o 性能并将其与我的代码性能相关联?

谢谢。

4

1 回答 1

0

这是一个非常大的问题……我们需要缩小范围。所以,让我问一些问题。

让我们看看一个简单的 ls 命令的 time 命令输出。

$ time ls real 0m0.003s 用户 0m0.001s sys 0m0.001s

挂钟时间是==实时,在您的情况下,它是变化的。如果我们进行下一步调试,要问的问题是:用户时间和系统时间是否也不同?如果 GPFS 文件系统在内核内部并且消耗不同的时间,您应该看到 sys 时间变化。如果 sys 时间保持不变,但实际时间不同,那么程序就是在花时间睡觉。有更深入的方法可以找到问题....但是您能否进一步澄清您的问题?

于 2013-09-21T03:30:09.087 回答