1

我正在尝试通过 TFX+Kubeflow(管道服务)在 Cloud AI Platform 的训练作业上训练 ML 模型。

每当触发 Trainer 作业时,我都会看到抱怨 CUDA 的日志消息。

2021-02-14 23:39:45.470214:W tensorflow/stream_executor/platform/default/dso_loader.cc:60] 无法加载动态库“libcudart.so.11.0”;dlerror:libcudart.so.11.0:无法打开共享对象文件:没有这样的文件或目录;LD_LIBRARY_PATH:/usr/local/lib

而且我没有看到任何 GPU(加速器)很忙。

scaleTier我认为当我设置为 like时 CUDA 可用BASIC_GPU。但是,我也需要TFX's EntryPoint。我还没有看到任何官方Dockerfile构建 TFX+CUDA 图像。

有什么建议吗?反复试验......我不断失去 GCP 积分......

4

0 回答 0