tensorflow - 如何从运行 google cloud ml 训练实例中收集性能指标？

Question

我在 google cloud ml training 上运行一个模型，大约需要 10 个小时，对机器的形状进行了一些幼稚的猜测。我想对其进行一些优化以减少运行时间和总体成本。

确定我是否有效使用资源的最佳方法是什么？我想要 cpu 测量值、内存压力和 GPU 使用率（只要它们可用）。我怀疑我需要1）记录这些或2）安装像堆栈驱动程序这样的监控代理，并假设像nvidia-smi这样的东西是可定位的，但我很好奇是否有人尝试过。

score 1 · Accepted Answer

此功能现已内置到产品中——CPU 和 RAM 使用指标（目前）作为 Stackdriver 指标发布。

指标视图也显示在作业详细信息页面的控制台中。

希望有帮助。

1 回答 1