“google-dl-platform”的相关标签问题

0 投票

1 回答

884 浏览

google-cloud-platform - 重启 DLVM 后无法通过 Tensorflow/Pytorch 检测 GPU

今天重启云笔记本服务器时出现了这个问题。可以使用以下步骤重现：

使用 Tensorflow 或 Pytorch 和 GPU 创建 Google Cloud Notebook 服务器
启动服务器后，打开 python 控制台：

CUDA 设备直到现在才可用。

重新启动服务器，然后再次打开笔记本。

nvidia-smi命令工作正常。

使用 TensorFlow 也可以重现此问题。如何解决这种情况？

2021-06-20T23:58:01.440

0 投票

2 回答

338 浏览

tensorflow - 如何在 Google 深度学习 VM 上安装 GPU 驱动程序？

我刚刚用这张图片创建了一个谷歌深度学习虚拟机：

张量流版本是 1.15.5。但是当我跑步时

它说-bash: nvidia-smi: command not found。

当我跑

我有

有谁知道如何安装GPU驱动程序？先感谢您！

更新：我注意到如果你选择 GPU 实例，那么 GPU 驱动程序是预先安装的。

tensorflow google-cloud-platform nvidia google-dl-platform

2021-06-22T08:10:25.377

0 投票

3 回答

540 浏览

tensorflow - 停止和启动深度学习谷歌云虚拟机实例导致 tensorflow 停止识别 GPU

我正在使用谷歌云提供的预构建深度学习 VM 实例，并连接了 Nvidia tesla K80 GPU。我选择自动安装 Tensorflow 2.5 和 CUDA 11.0。当我启动实例时，一切正常 - 我可以运行：

我的函数返回 CPU、加速 CPU 和 GPU。同样，如果我运行tf.test.is_gpu_available()，该函数返回 True。

但是，如果我注销，停止实例，然后重新启动实例，运行相同的确切代码只会看到 CPU 并tf.test.is_gpu_available()导致 False。我收到一个看起来像驱动程序初始化失败的错误：

运行nvidia-smi显示电脑还是能看到GPU，但是我的tensorflow看不到。

有谁知道这可能是什么原因造成的？我不想在重新启动实例时重新安装所有内容。

tensorflow google-cloud-platform nvidia google-dl-platform

2021-06-24T16:32:47.657

0 投票

2 回答

270 浏览

tensorflow - 谷歌云平台上的 Tensorflow CUDA_ERROR_UNKNOWN

我使用带有 Tesla A100 GPU、TensorFlow Enterprise 2.5 和 CUDA 11.0 的深度学习 VM 部署了一个虚拟机。但我无法访问 GPU/CUDA 并收到以下错误。

E tensorflow/stream_executor/cuda/cuda_driver.cc:328] 调用 cuInit 失败：CUDA_ERROR_UNKNOWN：未知错误

在部署时，我收到了这个警告：

tensorflow 有资源级别警告。资源 'projects/click-to-deploy-images/global/images/tf-2-5-cu110-v20210619-debian-10' 已弃用。建议的替换是“projects/click-to-deploy-images/global/images/tf-2-5-cu110-v20210624-debian-10”。

它是谷歌生成的已经存在的图像，很多人都在使用它，但为什么我不能使用它访问 GPU 或 CUDA？

以下细节可以帮助找出问题所在。

tensorflow google-cloud-platform google-dl-platform

2021-07-05T17:22:58.960

0 投票

1 回答

109 浏览

python - 深度学习虚拟机：如何释放内存？

我是 GCP 和深度学习 VM 的新手。我得到它来训练一些深度学习模型。在谷歌云 jupyter notebook 中训练时，它崩溃了，因为它无法将输入张量从 GPU 复制到 CPU：具体来说：

经过调查，它发生在GPU中没有足够的内存时。我检查了我的内存，在我初始化 VM 后运行了大约一个小时后，我的 RAM 已满 95%。我不知道这是怎么发生的。我怎样才能释放这个内存？

python tensorflow google-cloud-platform gcp-ai-platform-notebook google-dl-platform

2021-07-19T03:23:37.747

0 投票

1 回答

144 浏览

deep-learning - 具有内部 IP 地址且无 SSH 访问权限的 DataProc HUB 实例

想使用 GCP 提供的 dataproc-container-v20210802-debian-10 映像来创建 Dataproc HUB 笔记本实例。在组织中，不允许使用具有外部 IP 地址和与 VM 的 SSH 连接的 VM 实例。

我们只想在内部网络中使用 Dataproc HUB 实例。我的问题是，如果我在创建 Dataproc Hub 实例时选择内部 IP 地址并且没有可用的 SSH 连接，则需要进行哪些其他更改？

提前致谢。

deep-learning google-cloud-dataproc google-dl-platform

2021-08-11T15:48:08.990

0 投票

2 回答

214 浏览

google-cloud-platform - 在我使用当前配额（即 0）之前，谷歌云不会让我增加 GPU 配额？

显然谷歌不会提供免费试用的支持，所以没有办法获得官方的帮助。

我正在尝试设置谷歌云的免费试用版，以在云 GPU 上运行深度学习项目。建立项目后，我希望添加一个机器学习 VM。我去那里，它告诉我需要增加我的 GPU 配额。但是，当我点击“更改配额”链接时，我无法更改 GPU 配额，因为我没有使用当前可用的配额（即 0）...

有人对该怎么做有任何想法吗？我的目标是为几天后需要此资源的学生提供指南。我在夏天让它在另一个谷歌账户上工作，但需要在一个新账户上再次使用它，所以我可以告诉我的学生它对他们来说会是什么样子。所以，我想我对大部分步骤都很熟悉，但我之前没有见过这个“服务使用历史”错误。

google-cloud-platform google-dl-platform

2021-11-13T15:06:29.167

0 投票

0 回答

20 浏览

google-dl-platform - 深度学习图片启动，jupyter token

默认情况下，GCP 深度学习映像会启动未经身份验证、不受保护的 jupyter 服务器。我想在启动期间从环境变量中包含一个 jupyter 令牌。

export JUPYTER_TOKEN=secret

但是，VM 元数据下的启动脚本似乎在 Jupyter 服务器启动后运行，因此 Jupyter 不尊重我手动选择的令牌。注意：我已经将 jupyter 配置修改/home/jupyter/.jupyter/jupyter_notebook_config.py为需要令牌。

我应该如何设置 Jupyter 服务器可以获取的环境变量？

google-dl-platform

2021-12-27T17:40:32.137

0 投票

0 回答

14 浏览

networking - 让某人可以使用 GCP 深度学习 VM 上的 JupyterLab 代理 URL？

我能够从市场上创建一个深度学习虚拟机，当我在控制台中打开虚拟机实例时，我看到一个名为的元数据标签proxy-url，其格式如下https://[alphanumeric string]-dot-us-central1.notebooks.googleusercontent.com/lab

登录到同一个 GCP 帐户后，单击该链接会将我转到在我的 VM 上运行的 JupyterLab UI。惊人！不幸的是，当我尝试在隐身窗口中打开该链接时，系统会要求我登录。如果我登录到其他 Google 帐户，则会收到 403 禁止。

我现在的问题是，我怎样才能将该链接提供给其他人？

networking google-cloud-platform google-dl-platform

2022-01-27T19:04:55.320

0 投票

1 回答

39 浏览

keras - 在 GCP VM Notebook 中运行的 Keras-Ocr 中的问题

我从 GCP VM 中创建的 Notebook 中的以下存储库运行 Keras-OCR 实现

https://github.com/faustomorales/keras-ocr

对 prediction_groups = pipeline.recognize(images) 的调用会杀死内核。抛出关于 Kernel has dead 的错误。

GCP VM 是：版本：common-cu113.m87 基于：Debian GNU/Linux 10 (buster) (GNU/Linux 4.19.0-18-cloud-amd64 x86_64\n)

你能建议如何解决这个问题吗？

keras google-cloud-platform ocr google-dl-platform

2022-02-03T09:42:43.537

问题标签 [google-dl-platform]

Reference