tensorflow - @tensorflow/tfjs-node-gpu 与 NVIDIA P4 一起使用，但在 GKE 上使用 V100 失败

翻译自：https://stackoverflow.com/questions/66147633 2021-02-11T01:42:49.420

144 次

我的 tfjs-node-gpu 代码在 GKE 上的 NVIDIA p4 上运行良好（并在浏览器中使用 WebGL），但在 v100 和 t4 上却失败了。

节点在我的热身中的第一个预测调用中崩溃。我正在使用 128x128 的小图块来预测使用 Idealo-gans 的 4 倍图像放大。v100 初始化很好，显示为 nvidia_smi，显示为 TF 设备，NUMA 的东西都很好。它只是让我的节点快递服务器崩溃。我无法找到崩溃堆栈，因为这是在 Docker 容器中启动的，并且我上次尝试从 stderr 记录崩溃失败。

我已经尝试过最新的 tfjs-node-gpu 3.0 和 2.8.5。GKE 配置为安装 NV 驱动程序，当前为 410.104 和 CUDA 10.0。

我尝试启用调试模式，并在我的预热函数中传递{verbose: true}给失败的调用。model.predict()两者都没有向预热调用添加任何输出，这很奇怪，因为我确实在实际的非预热调用中看到了输出model.predict()

关于如何进一步调试的任何建议？

tensorflow - @tensorflow/tfjs-node-gpu 与 NVIDIA P4 一起使用，但在 GKE 上使用 V100 失败

0 回答 0

Related

Reference