我正在尝试在 tensorflow 2 object detection api 中运行一些模型的训练。
我正在使用这个命令:
gcloud ai-platform jobs submit training segmentation_maskrcnn_`date +%m_%d_%Y_%H_%M_%S` \
--runtime-version 2.1 \
--python-version 3.7 \
--job-dir=gs://${MODEL_DIR} \
--package-path ./object_detection \
--module-name object_detection.model_main_tf2 \
--region us-central1 \
--scale-tier CUSTOM \
--master-machine-type n1-highcpu-32 \
--master-accelerator count=4,type=nvidia-tesla-p100 \
-- \
--model_dir=gs://${MODEL_DIR} \
--pipeline_config_path=gs://${PIPELINE_CONFIG_PATH}
训练作业已成功提交,但当我在 AI 平台上查看我提交的作业时,我注意到它没有使用 GPU!
此外,在查看我的培训工作的日志时,我注意到在某些情况下它无法打开 cuda。它会这样说:
Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/extras/CUPTI/lib64:/usr/local/cuda/lib64:/usr/local/nvidia/lib64
几个月前我正在使用 AI 平台进行培训,并且很成功。我不知道现在发生了什么变化!事实上,对于我自己的设置,什么都没有改变。
作为记录,我现在正在训练 Mask RCNN。几个月前,我训练了 Faster RCNN 和 SSD 模型。