2

我在 google cloud ml training 上运行一个模型,大约需要 10 个小时,对机器的形状进行了一些幼稚的猜测。我想对其进行一些优化以减少运行时间和总体成本。

确定我是否有效使用资源的最佳方法是什么?我想要 cpu 测量值、内存压力和 GPU 使用率(只要它们可用)。我怀疑我需要1)记录这些或2)安装像堆栈驱动程序这样的监控代理,并假设像nvidia-smi这样的东西是可定位的,但我很好奇是否有人尝试过。

4

1 回答 1

1

此功能现已内置到产品中——CPU 和 RAM 使用指标(目前)作为 Stackdriver 指标发布。

指标视图也显示在作业详细信息页面的控制台中。

希望有帮助。

于 2017-03-14T08:37:29.823 回答