machine-learning - 没有日志，没有来自 Google Cloud ML Training Job 的输出

Question

我正在尝试在 Google 的 Cloud ML 上运行培训作业。我工作的迹象是：

诸如此类的消息表明该软件包已构建并安装：

INFO 2017-06-07 15:14:01 -0700 master-replica-0 成功构建 training-job-foo

INFO 2017-06-07 15:14:01 -0700 master-replica-0 安装收集的软件包：training-job-foo

INFO 2017-06-07 15:14:01 -0700 master-replica-0 成功安装 training-job-foo-0.1.dev0

INFO 2017-06-07 15:14:01 -0700 master-replica-0 运行命令：pip install --user training-job-foo-0.1.dev0.tar.gz

信息 2017-06-07 15:14:02 -0700 master-replica-0 处理 ./training-job-foo-0.1.dev0.tar.gz

这样的消息表明我的工作开始了：

INFO 2017-06-07 15:14:03 -0700 master-replica-0 运行命令：python -m training-job-foo.training_routine_bar --job-dir gs://regional-bucket-similar-to-training-工作/输出/

像这样的消息表明我的标量摘要正在处理中：

INFO 2017-06-07 15:14:21 -0700 master-replica-0 摘要名称 Total Accuracy 是非法的；改为使用 Total_Accuracy。

最后，我还看到 CPU、内存使用量增加，并且我的消耗的 MLUnits 增加
我应该补充一点，我还看到摘要 Filewriters 在创建作业之前创建了摘要文件，但我没有看到这些文件的大小增加。我还看到写入 gs://regional-bucket-similar-to-training-job/output/ 的初始检查点文件

除此之外，我看不到更多的日志或输出。我应该看到日志，因为我打印准确性，经常丢失。我还编写摘要和检查点文件。

我错过了什么？

在这种情况下还有哪些其他调试工具可用？我目前所做的只是流式传输日志，在 Cloud ML 控制台上查看作业状态、CPU 使用情况、内存使用情况，并查看我的 Cloud Storage 存储桶是否有任何变化

score 2 · Accepted Answer

很抱歉您遇到问题。目前，可用的调试工具是作业日志、指标和 TensorBoard，但似乎所有这些都不能用于您的情况。如果可能，请将您的项目编号和工作 ID 发送至 cloudml-feedback@google.com，以便我们仔细查看？

machine-learning - 没有日志，没有来自 Google Cloud ML Training Job 的输出

1 回答 1

Related

Reference