20

nvidia-smi 的正常输出如下所示:

Thu May 10 09:05:07 2018       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.111                Driver Version: 384.111                   |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 108...  Off  | 00000000:0A:00.0 Off |                  N/A |
| 61%   74C    P2   195W / 250W |   5409MiB / 11172MiB |    100%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      5973      C   ...master_JPG/build/tools/program_pytho.bin  4862MiB |
|    0     46324      C   python                                       537MiB |
+-----------------------------------------------------------------------------+

如您所见,它显示了正在运行 CPU 的 PID 列表。但是我也想知道 PID 的名称。我可以自定义输出以显示每个 PID 的用户名吗?我已经知道如何显示单个 PID 的用户名:

ps -u -p $pid

请帮我。非常感谢你。

更新:我已经在下面发布了对我有用的解决方案。我还把它作为一个简单的脚本上传到了 Github,供那些需要详细 GPU 信息的人使用:

https://github.com/ManhTruongDang/check-gpu

4

6 回答 6

24

我创建了一个脚本,它采用 nvidia-smi 输出并使用更多信息来丰富它:https ://github.com/peci1/nvidia-htop 。

它是一个 Python 脚本,用于解析 GPU 进程列表、解析 PID、运行它们ps以收集更多信息,然后nvidia-smi用丰富的列表替换 的进程列表。

使用示例:

$ nvidia-smi | nvidia-htop.py -l
Mon May 21 15:06:35 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.25                 Driver Version: 390.25                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 108...  Off  | 00000000:04:00.0 Off |                  N/A |
| 53%   75C    P2   174W / 250W |  10807MiB / 11178MiB |     97%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce GTX 108...  Off  | 00000000:05:00.0 Off |                  N/A |
| 66%   82C    P2   220W / 250W |  10783MiB / 11178MiB |    100%      Default |
+-------------------------------+----------------------+----------------------+
|   2  GeForce GTX 108...  Off  | 00000000:08:00.0 Off |                  N/A |
| 45%   67C    P2    85W / 250W |  10793MiB / 11178MiB |     51%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
|  GPU   PID     USER    GPU MEM  %MEM  %CPU  COMMAND                                                                                               |
|    0  1032 anonymou   10781MiB   308   3.7  python train_image_classifier.py --train_dir=/mnt/xxxxxxxx/xxxxxxxx/xxxxxxxx/xxxxxxx/xxxxxxxxxxxxxxx  |
|    1 11021 cannotte   10765MiB   114   1.5  python3 ./train.py --flagfile /xxxxxxxx/xxxxxxxx/xxxxxxxx/xxxxxxxxx/xx/xxxxxxxxxxxxxxx                |
|    2 25544 nevermin   10775MiB   108   2.0  python -m xxxxxxxxxxxxxxxxxxxxxxxxxxxxx                                                               |
+-----------------------------------------------------------------------------+
于 2018-05-21T13:40:31.863 回答
14

我用nvidia-smi -q -x的是 nvidia-smi 的 XML 样式输出

ps -up `nvidia-smi -q -x | grep pid | sed -e 's/<pid>//g' -e 's/<\/pid>//g' -e 's/^[[:space:]]*//'`
于 2019-05-17T07:17:48.507 回答
3

这是我能想到的最好的:

nvidia-smi
ps -up `nvidia-smi |tail -n +16 | head -n -1 | sed 's/\s\s*/ /g' | cut -d' ' -f3` 

样本输出:

Thu May 10 15:23:08 2018       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.111                Driver Version: 384.111                   |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 108...  Off  | 00000000:0A:00.0 Off |                  N/A |
| 41%   59C    P2   251W / 250W |   5409MiB / 11172MiB |    100%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      1606      C   ...master_JPG/build/tools/program.bin       4862MiB |
|    0     15314      C   python                                       537MiB |
+-----------------------------------------------------------------------------+
USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
user111+  1606  134  4.8 32980224 789164 pts/19 Rl+ 15:23   0:08 /home/user111
user2     15314  0.4 10.0 17936788 1647040 pts/16 Sl+ 10:41   1:20 python server_

脚本的简短说明:

  • Tailhead删除多余的行

  • Sed删除空格(在此之后,每列将仅由 1 个空格分隔)

  • Cut提取相关列

输出是一个 PID 列表,每个占用 1 行。我们只需要使用ps -up来显示相关信息

更新:更好的解决方案:

ps -up `nvidia-smi |tee /dev/stderr |tail -n +16 | head -n -1 | sed 's/\s\s*/ /g' | cut -d' ' -f3`

这样,nvidia-smi只需要调用一次。也可以看看:

如何将 bash 命令输出到标准输出并同时通过管道输出到另一个命令?

更新 2:我已将此作为简单脚本上传到 Github,供需要详细 GPU 信息的人使用。

https://github.com/ManhTruongDang/check-gpu

于 2018-05-10T08:38:08.400 回答
3

以前的解决方案不起作用,所以我在这里发布我的解决方案。我用的NVIDIA-SMI的版本是440.44,不过我觉得没关系。

nvidia-smi | tee /dev/stderr | awk '/ C / {print $3}' | xargs -r ps -up

一点解释:

  • tee: 避免调用 nvidia-smi 两次
  • awk: 抓取计算进程的 PID 列(类型 C)
  • xargs -r:-r检查输入是否为空,这样可以避免不受欢迎的错误信息ps -up

如果你想让它成为.bash_profileor中的别名.bashrc

alias nvidia-smi2='nvidia-smi | tee /dev/stderr | awk "/ C / {print \$3}" | xargs -r ps -up'

不同的是,它必须先逃走$3

于 2020-03-16T03:30:10.727 回答
2

Jay Stanley,我可以使用以下命令为 Junwon Lee 的命令起别名xargs

alias gpu_user_usage="nvidia-smi -q -x | grep pid | sed -e 's/<pid>//g' -e 's/<\/pid>//g' -e 's/^[[:space:]]*//' | xargs ps -up"

(由于声誉限制,我无法发表评论......)

于 2019-10-14T18:26:01.690 回答
0

正如罗伯特的评论所暗示的那样,这个答案https://stackoverflow.com/a/51406093/2160809建议使用 gpustat 我发现它真的很有帮助

gpustat -up
[0] NVIDIA GeForce GTX 1080 Ti | 90'C,  73 % |  6821 / 11178 MB | user1/732124(6817M)
[1] NVIDIA GeForce GTX 1080 Ti | 63'C,   0 % |  7966 / 11178 MB | user2/268172(1287M) user3/735496(6675M)
[2] NVIDIA GeForce GTX 1080 Ti | 66'C,  13 % |  2578 / 11178 MB | user2/268478(1287M) user2/725391(1287M)
[3] NVIDIA GeForce GTX 1080 Ti | 58'C,   0 % |  1291 / 11178 MB | user2/726058(1287M)
于 2021-06-21T12:41:26.650 回答