monitoring - 返回按区域聚合的 %CPU、%Memory 和网络输入/输出的 Dtrace 脚本

Question

我需要一个 DTrace 脚本，它返回 CPU 使用百分比、内存使用百分比和使用的网络输入和输出字节，按区域聚合数据。像这样的东西：

ZONE  %CPU %MEM NET_INPUT NET_OUTPUT
zone1 25%  12%   86012     1294
zone2 48%  65%   86012     7354
zone3  8%  14%  268153    68746

到目前为止，我正在使用：

prstat -Z -c -n 1,99999 5 1

返回类似的东西（没有网络流量）：

Please wait...
   PID USERNAME  SIZE   RSS STATE  PRI NICE      TIME  CPU PROCESS/NLWP       
 32051 root     1090M 1079M sleep    1    0  12:57:25 0,4% qemu-system-x86/7
ZONEID    NPROC  SWAP   RSS MEMORY      TIME  CPU ZONE                        
  3228        2 1090M 1079M   2,2%  12:57:25 0,4% 6ce064b6-fec9-4daa-ba2b-0082f73fca73
     0      105 2075M  633M   1,1% 202:56:51 0,4% global                      
  3031        2 2105M 2094M   4,3%  17:04:52 0,3% e32fb987-35f7-4860-a04a-ca26c327d4ba
(...)
  3411       18   81M   54M   0,1%   0:00:04 0,0% 52120eb6-2e20-4a64-8f7a-235a44d9f100
Total: 894 processes, 5460 lwps, load averages: 0,53, 0,53, 0,54

我需要得到相同的结果，但使用 DTrace 完成，以便将数据与网络流量相结合，并在未来进行更多探测。

score 5 · Accepted Answer

尚不存在此类脚本的原因是使用 DTrace 很难获得 CPU / 内存利用率。DTrace 最适合对特定事件的数据进行采样。要使用 DTrace 获取 CPU 利用率，您需要跟踪每次 CPU 空闲和忙碌的时间，然后进行一些添加。请注意，这与 DTrace 提供的用于跟踪调度程序操作的提供程序不同，因为这些提供程序是基于每个线程而不是基于每个 CPU。内存更烦人，因为您将跟踪每个内存分配和释放。

要获取这些数据源，最好通过从中提取数据来为您提供更好的服务kstat（听起来您正在使用 Solaris，AFAIK 是唯一拥有的平台kstat）。您可以使用它找到您要查找的信息，如下所示：

$ sudo kstat unix:0:system_misc:ncpus      # this is the number of CPUs you have
module: unix                            instance: 0     
name:   system_misc                     class:    misc
        ncpus                           2

$ sudo kstat cpu::sys:cpu_ticks*           # ticks of each type for each core since boot
module: cpu                             instance: 0     
name:   sys                             class:    misc
        cpu_ticks_idle                  9375292
        cpu_ticks_kernel                82658
        cpu_ticks_user                  23684
        cpu_ticks_wait                  0

module: cpu                             instance: 1     
name:   sys                             class:    misc
        cpu_ticks_idle                  9410367
        cpu_ticks_kernel                49141
        cpu_ticks_user                  21956
        cpu_ticks_wait                  0

$ sudo kstat unix:0:system_pages:physmem   # pages of physical memory (multiply by page size for number of bytes)
module: unix                            instance: 0     
name:   system_pages                    class:    pages
        physmem                         1045390

$ sudo kstat unix:0:system_pages:freemem   # pages of free memory (multiply by page size for number of bytes)
module: unix                            instance: 0     
name:   system_pages                    class:    pages
        freemem                         880842

请注意，您需要从 CPU 滴答计数器的上次读数中减去每个新读数 - 否则，您将跟踪自系统启动以来的滴答总数。当计数器溢出时，它们被设置为 0，然后将新值添加到它们（这不仅仅是盲目加法溢出）。

您还可以kstat使用link:0::. 我不确定是否可以在每个区域中找到此信息，但也可能有一个kstat跟踪该信息的信息。

我想如果你决定使用 DTrace 来监控这些值，你可以通过跟踪内核中这些计数器被修改的时刻并记录修改来强制它这样做。但是，我真的不明白这样做的意义，因为使用您已经发现的其他方法更容易。为什么不创建一个脚本来启动两个数据源并将结果组合成更好看的东西呢？

score 1 · Accepted Answer

看看 Brendan Gregg 的DTraceToolkit。它有大量的脚本，这些脚本使用各种探针来完成广泛的任务。这可能会为您指明正确的方向。

monitoring - 返回按区域聚合的 %CPU、%Memory 和网络输入/输出的 Dtrace 脚本

2 回答 2

Related

Reference