我正在尝试根据 Tensorflow 示例和这篇文章训练我自己的检测器模型。我确实成功地在 Macbook Pro 上进行了本地培训。问题是我没有 GPU 并且在 CPU 上执行它太慢(每次迭代大约 25 秒)。
这样,我尝试按照教程在 Google Cloud ML Engine 上运行,但无法使其正常运行。
我的文件夹结构如下所述:
+ data
- train.record
- test.record
+ models
+ train
+ eval
+ training
- ssd_mobilenet_v1_coco
我从本地培训更改为 Google Cloud 培训的步骤是:
- 在谷歌云存储中创建一个存储桶,并复制我的本地文件夹结构和文件;
- 编辑我的
pipeline.config
文件并将所有路径从 更改Users/dev/detector/
为gcc://bucketname/
; - 使用教程中提供的默认配置创建一个 YAML 文件;
跑
gcloud ml-engine 作业提交训练 object_detection_
date +%s
\ --job-dir=gs://bucketname/models/train \ --packages dist/object_detection-0.1.tar.gz,slim/dist/slim-0.1.tar.gz \ --module-name object_detection.train \ --region us-east1 \ --config /Users/dev/detector/training/cloud.yml \ -- \ --train_dir=gs://bucketname/models/train \ - -pipeline_config_path=gs://bucketname/data/pipeline.config
这样做会给我来自 MLUnits 的以下错误消息:
副本 ps 0 以非零状态 1 退出。终止原因:错误。回溯(最后一次调用):文件“/usr/lib/python2.7/runpy.py”,第 162 行,在 _run_module_as_main “__main__”,fname,loader,pkg_name)文件“/usr/lib/python2.7/ runpy.py”,第 72 行,在 run_globals 文件中的 _run_code 执行代码“/root/.local/lib/python2.7/site-packages/object_detection/train.py”,第 49 行,从 object_detection 导入培训师文件“/ root/.local/lib/python2.7/site-packages/object_detection/trainer.py”,第 27 行,从 object_detection.builders import preprocessor_builder 文件“/root/.local/lib/python2.7/site-packages/ object_detection/builders/preprocessor_builder.py”,第 21 行,在 from object_detection.protos import preprocessor_pb2 文件“/root/.local/lib/python2.
提前致谢。