0

我正在使用名为darknet/YOLO的 CNN在具有 NVIDIA 显卡的远程共享集群上进行深度学习。远程集群是带有 PBS 作业计划系统的 linux。

我正在提交在 GPU 上训练神经网络的工作,效果很好。

问题在于训练期间消耗的大量处理器。我通常提交一个有 8 个处理器的工作,像这样

qsub -q gpu select=1:ncpus=8:ngpus=1:mem=15gb:gpu_cap=cuda61

但由于处理器数量过多,它总是被杀死。即使我将数量增加到 20 个,它仍然超过了。

我不知道为什么暗网会在服务器上消耗这么多处理器,即使我可以在我的笔记本电脑上使用英特尔 i5 处理器(速度慢且效率低)运行这项工作。

我试过的:

1)设置cgroups=cpuacct强制作业不使用更多的处理器然后分配,但它根本不起作用。似乎限制在服务器没有其他资源的情况下起作用。在有免费处理器的情况下,限制不起作用(https://drill.apache.org/docs/configuring-cgroups-to-control-cpu-usage/#cpu-limits

2) 设置place=excelhost在超出分配资源的情况下不会终止作业。另一方面,用这个标志开始工作需要 7 天,而且我每天都必须训练网络。

问题:

我不需要这些处理器,我不明白为什么暗网使用这么多处理器。我如何强制作业不超过给定的处理器数量?或者其他一些想法我怎么能解决这种问题?

4

2 回答 2

0

更有可能是该队列的管理员设置限制与您的请求不匹配。因此,ping 您的管理员并获取队列的详细信息。(例如 queue1 ppm、gpu 的)

于 2018-11-19T23:46:50.077 回答
0

实际上,暗网神经网络在共享集群上使用这么多线程的原因是,暗网甚至没有计算它可能在共享集群上运行的可能性。

正如你在暗网的源代码中看到的—— src/detector.c,行111链接),暗网使用 64 个线程来准备训练和计算的输入。如果你没有 64 核,它会尽可能多地使用。

要减少线程数,请替换以下行中的线程数。对我来说 8 个线程是合适的。

  • detector.c 111, 393,602
  • classifier.c 91

归功于Metacentrum 的支持

于 2018-12-06T14:37:52.457 回答