我的 tfjs-node-gpu 代码在 GKE 上的 NVIDIA p4 上运行良好(并在浏览器中使用 WebGL),但在 v100 和 t4 上却失败了。
节点在我的热身中的第一个预测调用中崩溃。我正在使用 128x128 的小图块来预测使用 Idealo-gans 的 4 倍图像放大。v100 初始化很好,显示为 nvidia_smi,显示为 TF 设备,NUMA 的东西都很好。它只是让我的节点快递服务器崩溃。我无法找到崩溃堆栈,因为这是在 Docker 容器中启动的,并且我上次尝试从 stderr 记录崩溃失败。
我已经尝试过最新的 tfjs-node-gpu 3.0 和 2.8.5。GKE 配置为安装 NV 驱动程序,当前为 410.104 和 CUDA 10.0。
我尝试启用调试模式,并在我的预热函数中传递{verbose: true}
给失败的调用。model.predict()
两者都没有向预热调用添加任何输出,这很奇怪,因为我确实在实际的非预热调用中看到了输出model.predict()
关于如何进一步调试的任何建议?