我在 google cloud ml training 上运行一个模型,大约需要 10 个小时,对机器的形状进行了一些幼稚的猜测。我想对其进行一些优化以减少运行时间和总体成本。
确定我是否有效使用资源的最佳方法是什么?我想要 cpu 测量值、内存压力和 GPU 使用率(只要它们可用)。我怀疑我需要1)记录这些或2)安装像堆栈驱动程序这样的监控代理,并假设像nvidia-smi这样的东西是可定位的,但我很好奇是否有人尝试过。
我在 google cloud ml training 上运行一个模型,大约需要 10 个小时,对机器的形状进行了一些幼稚的猜测。我想对其进行一些优化以减少运行时间和总体成本。
确定我是否有效使用资源的最佳方法是什么?我想要 cpu 测量值、内存压力和 GPU 使用率(只要它们可用)。我怀疑我需要1)记录这些或2)安装像堆栈驱动程序这样的监控代理,并假设像nvidia-smi这样的东西是可定位的,但我很好奇是否有人尝试过。