我正在尝试确定 Linux 上进程停滞的原因。这是一个电信应用程序,在相当重的负载下运行。8 个 T1 跨度中的每一个都有一个单独的过程。每隔一段时间,其中一个进程就会变得非常无响应 - 在通常非常繁忙的进程日志中记录事件之前最多可能 50 秒。
可能是某些系统资源不足。显而易见的事情 - CPU 使用率 - 看起来没问题。
哪些 linux 实用程序可能最适合捕获和分析这类事情,并且尽可能不引人注目,因为这是一个高负载系统?看起来,它需要是过程而不是面向系统的。也许对 /proc/pid/XX 的持续监控?Top 在这里似乎不太有用。