问题标签 [google-dl-platform]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-platform - 重启 DLVM 后无法通过 Tensorflow/Pytorch 检测 GPU
今天重启云笔记本服务器时出现了这个问题。可以使用以下步骤重现:
使用 Tensorflow 或 Pytorch 和 GPU 创建 Google Cloud Notebook 服务器
启动服务器后,打开 python 控制台:
CUDA 设备直到现在才可用。
- 重新启动服务器,然后再次打开笔记本。
nvidia-smi
命令工作正常。
使用 TensorFlow 也可以重现此问题。如何解决这种情况?
tensorflow - 如何在 Google 深度学习 VM 上安装 GPU 驱动程序?
我刚刚用这张图片创建了一个谷歌深度学习虚拟机:
张量流版本是 1.15.5。但是当我跑步时
它说-bash: nvidia-smi: command not found
。
当我跑
我有
有谁知道如何安装GPU驱动程序?先感谢您!
更新:我注意到如果你选择 GPU 实例,那么 GPU 驱动程序是预先安装的。
tensorflow - 停止和启动深度学习谷歌云虚拟机实例导致 tensorflow 停止识别 GPU
我正在使用谷歌云提供的预构建深度学习 VM 实例,并连接了 Nvidia tesla K80 GPU。我选择自动安装 Tensorflow 2.5 和 CUDA 11.0。当我启动实例时,一切正常 - 我可以运行:
我的函数返回 CPU、加速 CPU 和 GPU。同样,如果我运行tf.test.is_gpu_available()
,该函数返回 True。
但是,如果我注销,停止实例,然后重新启动实例,运行相同的确切代码只会看到 CPU 并tf.test.is_gpu_available()
导致 False。我收到一个看起来像驱动程序初始化失败的错误:
运行nvidia-smi显示电脑还是能看到GPU,但是我的tensorflow看不到。
有谁知道这可能是什么原因造成的?我不想在重新启动实例时重新安装所有内容。
tensorflow - 谷歌云平台上的 Tensorflow CUDA_ERROR_UNKNOWN
我使用带有 Tesla A100 GPU、TensorFlow Enterprise 2.5 和 CUDA 11.0 的深度学习 VM 部署了一个虚拟机。但我无法访问 GPU/CUDA 并收到以下错误。
E tensorflow/stream_executor/cuda/cuda_driver.cc:328] 调用 cuInit 失败:CUDA_ERROR_UNKNOWN:未知错误
在部署时,我收到了这个警告:
tensorflow 有资源级别警告。资源 'projects/click-to-deploy-images/global/images/tf-2-5-cu110-v20210619-debian-10' 已弃用。建议的替换是“projects/click-to-deploy-images/global/images/tf-2-5-cu110-v20210624-debian-10”。
它是谷歌生成的已经存在的图像,很多人都在使用它,但为什么我不能使用它访问 GPU 或 CUDA?
以下细节可以帮助找出问题所在。
python - 深度学习虚拟机:如何释放内存?
我是 GCP 和深度学习 VM 的新手。我得到它来训练一些深度学习模型。在谷歌云 jupyter notebook 中训练时,它崩溃了,因为它无法将输入张量从 GPU 复制到 CPU:具体来说:
经过调查,它发生在GPU中没有足够的内存时。我检查了我的内存,在我初始化 VM 后运行了大约一个小时后,我的 RAM 已满 95%。我不知道这是怎么发生的。我怎样才能释放这个内存?
deep-learning - 具有内部 IP 地址且无 SSH 访问权限的 DataProc HUB 实例
想使用 GCP 提供的 dataproc-container-v20210802-debian-10 映像来创建 Dataproc HUB 笔记本实例。在组织中,不允许使用具有外部 IP 地址和与 VM 的 SSH 连接的 VM 实例。
我们只想在内部网络中使用 Dataproc HUB 实例。我的问题是,如果我在创建 Dataproc Hub 实例时选择内部 IP 地址并且没有可用的 SSH 连接,则需要进行哪些其他更改?
提前致谢。
google-dl-platform - 深度学习图片启动,jupyter token
默认情况下,GCP 深度学习映像会启动未经身份验证、不受保护的 jupyter 服务器。我想在启动期间从环境变量中包含一个 jupyter 令牌。
export JUPYTER_TOKEN=secret
但是,VM 元数据下的启动脚本似乎在 Jupyter 服务器启动后运行,因此 Jupyter 不尊重我手动选择的令牌。注意:我已经将 jupyter 配置修改/home/jupyter/.jupyter/jupyter_notebook_config.py
为需要令牌。
我应该如何设置 Jupyter 服务器可以获取的环境变量?
networking - 让某人可以使用 GCP 深度学习 VM 上的 JupyterLab 代理 URL?
我能够从市场上创建一个深度学习虚拟机,当我在控制台中打开虚拟机实例时,我看到一个名为的元数据标签proxy-url
,其格式如下https://[alphanumeric string]-dot-us-central1.notebooks.googleusercontent.com/lab
登录到同一个 GCP 帐户后,单击该链接会将我转到在我的 VM 上运行的 JupyterLab UI。惊人!不幸的是,当我尝试在隐身窗口中打开该链接时,系统会要求我登录。如果我登录到其他 Google 帐户,则会收到 403 禁止。
我现在的问题是,我怎样才能将该链接提供给其他人?
keras - 在 GCP VM Notebook 中运行的 Keras-Ocr 中的问题
我从 GCP VM 中创建的 Notebook 中的以下存储库运行 Keras-OCR 实现
https://github.com/faustomorales/keras-ocr
对 prediction_groups = pipeline.recognize(images) 的调用会杀死内核。抛出关于 Kernel has dead 的错误。
GCP VM 是: 版本:common-cu113.m87 基于:Debian GNU/Linux 10 (buster) (GNU/Linux 4.19.0-18-cloud-amd64 x86_64\n)
你能建议如何解决这个问题吗?