问题标签 [google-dl-platform]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
884 浏览

google-cloud-platform - 重启 DLVM 后无法通过 Tensorflow/Pytorch 检测 GPU

今天重启云笔记本服务器时出现了这个问题。可以使用以下步骤重现:

  1. 使用 Tensorflow 或 Pytorch 和 GPU 创建 Google Cloud Notebook 服务器

  2. 启动服务器后,打开 python 控制台:

CUDA 设备直到现在才可用。

  1. 重新启动服务器,然后再次打开笔记本。

nvidia-smi命令工作正常。

使用 TensorFlow 也可以重现此问题。如何解决这种情况?

0 投票
2 回答
338 浏览

tensorflow - 如何在 Google 深度学习 VM 上安装 GPU 驱动程序?

我刚刚用这张图片创建了一个谷歌深度学习虚拟机:

张量流版本是 1.15.5。但是当我跑步时

它说-bash: nvidia-smi: command not found

当我跑

我有

有谁知道如何安装GPU驱动程序?先感谢您!

更新:我注意到如果你选择 GPU 实例,那么 GPU 驱动程序是预先安装的。

0 投票
3 回答
540 浏览

tensorflow - 停止和启动深度学习谷歌云虚拟机实例导致 tensorflow 停止识别 GPU

我正在使用谷歌云提供的预构建深度学习 VM 实例,并连接了 Nvidia tesla K80 GPU。我选择自动安装 Tensorflow 2.5 和 CUDA 11.0。当我启动实例时,一切正常 - 我可以运行:

我的函数返回 CPU、加速 CPU 和 GPU。同样,如果我运行tf.test.is_gpu_available(),该函数返回 True。

但是,如果我注销,停止实例,然后重新启动实例,运行相同的确切代码只会看到 CPU 并tf.test.is_gpu_available()导致 False。我收到一个看起来像驱动程序初始化失败的错误:

运行nvidia-smi显示电脑还是能看到GPU,但是我的tensorflow看不到。

有谁知道这可能是什么原因造成的?我不想在重新启动实例时重新安装所有内容。

0 投票
2 回答
270 浏览

tensorflow - 谷歌云平台上的 Tensorflow CUDA_ERROR_UNKNOWN

我使用带有 Tesla A100 GPU、TensorFlow Enterprise 2.5 和 CUDA 11.0 的深度学习 VM 部署了一个虚拟机。但我无法访问 GPU/CUDA 并收到以下错误。

E tensorflow/stream_executor/cuda/cuda_driver.cc:328] 调用 cuInit 失败:CUDA_ERROR_UNKNOWN:未知错误

在部署时,我收到了这个警告:

tensorflow 有资源级别警告。资源 'projects/click-to-deploy-images/global/images/tf-2-5-cu110-v20210619-debian-10' 已弃用。建议的替换是“projects/click-to-deploy-images/global/images/tf-2-5-cu110-v20210624-debian-10”。

它是谷歌生成的已经存在的图像,很多人都在使用它,但为什么我不能使用它访问 GPU 或 CUDA?

以下细节可以帮助找出问题所在。

0 投票
1 回答
109 浏览

python - 深度学习虚拟机:如何释放内存?

我是 GCP 和深度学习 VM 的新手。我得到它来训练一些深度学习模型。在谷歌云 jupyter notebook 中训练时,它崩溃了,因为它无法将输入张量从 GPU 复制到 CPU:具体来说:

经过调查,它发生在GPU中没有足够的内存时。我检查了我的内存,在我初始化 VM 后运行了大约一个小时后,我的 RAM 已满 95%。我不知道这是怎么发生的。我怎样才能释放这个内存?

0 投票
1 回答
144 浏览

deep-learning - 具有内部 IP 地址且无 SSH 访问权限的 DataProc HUB 实例

想使用 GCP 提供的 dataproc-container-v20210802-debian-10 映像来创建 Dataproc HUB 笔记本实例。在组织中,不允许使用具有外部 IP 地址和与 VM 的 SSH 连接的 VM 实例。

我们只想在内部网络中使用 Dataproc HUB 实例。我的问题是,如果我在创建 Dataproc Hub 实例时选择内部 IP 地址并且没有可用的 SSH 连接,则需要进行哪些其他更改?

提前致谢。

0 投票
2 回答
214 浏览

google-cloud-platform - 在我使用当前配额(即 0)之前,谷歌云不会让我增加 GPU 配额?

显然谷歌不会提供免费试用的支持,所以没有办法获得官方的帮助。

我正在尝试设置谷歌云的免费试用版,以在云 GPU 上运行深度学习项目。建立项目后,我希望添加一个机器学习 VM。我去那里,它告诉我需要增加我的 GPU 配额。但是,当我点击“更改配额”链接时,我无法更改 GPU 配额,因为我没有使用当前可用的配额(即 0)...

在此处输入图像描述

有人对该怎么做有任何想法吗?我的目标是为几天后需要此资源的学生提供指南。我在夏天让它在另一个谷歌账户上工作,但需要在一个新账户上再次使用它,所以我可以告诉我的学生它对他们来说会是什么样子。所以,我想我对大部分步骤都很熟悉,但我之前没有见过这个“服务使用历史”错误。

0 投票
0 回答
20 浏览

google-dl-platform - 深度学习图片启动,jupyter token

默认情况下,GCP 深度学习映像会启动未经身份验证、不受保护的 jupyter 服务器。我想在启动期间从环境变量中包含一个 jupyter 令牌。

export JUPYTER_TOKEN=secret

但是,VM 元数据下的启动脚本似乎在 Jupyter 服务器启动运行,因此 Jupyter 不尊重我手动选择的令牌。注意:我已经将 jupyter 配置修改/home/jupyter/.jupyter/jupyter_notebook_config.py为需要令牌。

我应该如何设置 Jupyter 服务器可以获取的环境变量?

0 投票
0 回答
14 浏览

networking - 让某人可以使用 GCP 深度学习 VM 上的 JupyterLab 代理 URL?

我能够从市场上创建一个深度学习虚拟机,当我在控制台中打开虚拟机实例时,我看到一个名为的元数据标签proxy-url,其格式如下https://[alphanumeric string]-dot-us-central1.notebooks.googleusercontent.com/lab

登录到同一个 GCP 帐户后,单击该链接会将我转到在我的 VM 上运行的 JupyterLab UI。惊人!不幸的是,当我尝试在隐身窗口中打开该链接时,系统会要求我登录。如果我登录到其他 Google 帐户,则会收到 403 禁止。

我现在的问题是,我怎样才能将该链接提供给其他人?

0 投票
1 回答
39 浏览

keras - 在 GCP VM Notebook 中运行的 Keras-Ocr 中的问题

我从 GCP VM 中创建的 Notebook 中的以下存储库运行 Keras-OCR 实现

https://github.com/faustomorales/keras-ocr

对 prediction_groups = pipeline.recognize(images) 的调用会杀死内核。抛出关于 Kernel has dead 的错误。

GCP VM 是: 版本:common-cu113.m87 基于:Debian GNU/Linux 10 (buster) (GNU/Linux 4.19.0-18-cloud-amd64 x86_64\n)

你能建议如何解决这个问题吗?