我正在尝试通过 TFX+Kubeflow(管道服务)在 Cloud AI Platform 的训练作业上训练 ML 模型。
每当触发 Trainer 作业时,我都会看到抱怨 CUDA 的日志消息。
2021-02-14 23:39:45.470214:W tensorflow/stream_executor/platform/default/dso_loader.cc:60] 无法加载动态库“libcudart.so.11.0”;dlerror:libcudart.so.11.0:无法打开共享对象文件:没有这样的文件或目录;LD_LIBRARY_PATH:/usr/local/lib
而且我没有看到任何 GPU(加速器)很忙。
scaleTier
我认为当我设置为 like时 CUDA 可用BASIC_GPU
。但是,我也需要TFX
's EntryPoint
。我还没有看到任何官方Dockerfile
构建 TFX+CUDA 图像。
有什么建议吗?反复试验......我不断失去 GCP 积分......