问题标签 [amd-rocm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2088 浏览

python - 当我运行下面的程序时,在带有 ROCm 的 AMD GPU 上使用 Tensorflow 和 Keras 使用 Python 进行深度学习会出错

我有一台 AMD GPU 电脑,我最近开始与 Linux Mint OS 一起使用我已经看到了按照教程在这台电脑上安装 ROCm 的方法,但是当我尝试使用 Keras 编写 Python 程序时,它抛出了这些错误。这是我的代码:

这些是错误:

在处理上述异常的过程中,又出现了一个异常:

这个页面有一些常见的原因和解决方案。

0 投票
1 回答
224 浏览

mpi - 即使我们有单节点多 GPU 设置,也限制 MPI 在单 GPU 上运行

我是分布式计算的新手,我正在尝试运行一个使用 MPI 和 ROCm(在 GPU 上运行的 AMD 框架)的程序。

我用来运行程序的命令是 mpirun -np 4 ./a.out

但它默认运行在我机器上可用的 2 个 GPU 上。有没有办法让它只在单个 GPU 上运行,如果是的话如何?

提前致谢 :)

0 投票
1 回答
551 浏览

python - 将 ROCm 与 Pycharm、Ubuntu 20.04 一起使用

我一直在尝试使用 AMD 卡实现 GPU 加速以进行深度学习。尝试使用基于 Docker 的方法,但在最后阶段发现 PyCharm 中的 Docker 解释器需要 PyCharm Professional。

现在,我遵循了这种方法:https ://www.videogames.ai/Install-ROCM-Machine-Learning-AMD-GPU

并得到这个错误。

仅供参考:我已经运行了命令,sudo apt install rccl

我应该如何进行?

0 投票
1 回答
992 浏览

tensorflow - 什么是 HIP,为什么不能在锐龙 3400g 上运行?

我有兴趣在我的 Ryzen 3400g 系统上运行深度学习代码。我在网上看到:

我尝试在我的 Ryzen 3400G 上使用 Vega 11,我知道我无法运行 HIP,但我可能可以在此 APU 上运行 opencl,我的第一步是导入 tensorflow,但我遇到了错误,

这是来自https://github.com/ROCmSoftwarePlatform/tensorflow-upstream/issues/669

Radeon vega 11 gpu和tensorflow真的不能用ryzen 3400g吗?

————</p>

是否可以改为使用 opencl(如https://missinglink.ai/guides/tensorflow/tensorflow-support-opencl/)?

0 投票
0 回答
111 浏览

python - GPU 上的 TensorFlow 模型:“请求的形状具有 [不合理的大数字] 值”

我正在尝试在 AMD GPU(AMD Vega 20、Tensorflow 2.2.0、Keras 2.4.3)上使用 Keras 包装器运行一个简单的顺序 Tensorflow 模型,但在尝试拟合时遇到了一个奇怪的问题:

tensorflow.python.framework.errors_impl.InvalidArgumentError: Input to reshape is a tensor with 15 values, but the requested shape has 15976860750

它似乎将批量大小作为输入张量的值的数量,并且以某种方式“请求的形状”的大小爆炸了。模型定义如下:

如果我在没有安装 GPU 的机器上仅在 CPU 上运行完全相同的模型,则可以正常工作。它也适用于另一台运行 NVidia GPU(使用 Tensorflow 1.15.3 和 Keras 2.3.1)的机器上的 CUDA11 实现。

我不知道为什么它会请求 GPU 内存大小作为后来的 Tensorflow 版本的输入大小,并且只有在 AMD GPU 存在的情况下。有什么明显的地方我可能在这里的配置有问题吗?

编辑:针对下面的评论,经过一些调整后,“请求的大小”在某种程度上与批量大小有关,而不是与想象中的 GPU 内存相关(这个数字显然是巧合 - 将批量大小设置为 10 给出了“请求的大小” 1092616192 代替)。输入只是一个简单的 panda 数据帧,每行有 8 个值(由 input_dim 定义,如前所述,这在其他机器上可以正常工作)。

错误发生在调用 fit() 进行训练期间 - 我可以从输出中看到它在像这样崩溃之前大约 5 个 epoch。回溯是:(“~/rocm/keras”只是我为此环境安装python包的路径)

0 投票
1 回答
471 浏览

fedora - 使用 Fedora 32 安装 ROCm

我尝试使用此处描述的过程 https://rigtorp.se/notes/rocm/ 在 Fedora 32 上安装ROCm ( https://rocmdocs.amd.com/en/latest/ )

rocminfo 函数正确识别我的 Radeon RX 5700。hip-samples 中的代码编译和链接,但运行代码会导致会话或整个系统崩溃。

有其他人用 Fedora 成功安装 ROCm 吗?

Fedora 32 当前的内核版本是 5.8.10

0 投票
2 回答
5549 浏览

deep-learning - 在 Ubuntu 20.04 上安装 ROCm 失败

我想在 Ubuntu 上设置 AMD Radeon 进行深度学习。我工作的主要库是 keras 和 pytorch。我在这里严格遵循 ROCm 安装指南,但在第三步使用命令失败sudo apt install rocm-dkms。错误信息如下所示。

我的内核版本是5.8.0-41-generic. 我的显卡是技嘉Radeon RX6900 XT。我的 CPU 是 AMD Ryzen 9 3900 XT。我尝试了以前帖子中建议的几种解决方案,但并没有解决我的问题。我可以有你的建议来解决这个问题。

0 投票
1 回答
101 浏览

amd - AMD RDNA 支持wave32 是什么意思?

来自 AMD RDNA 白皮书,据说

RDNA 架构原生设计用于具有 32 个工作项的新窄波前,直观地称为 wave32,针对高效计算进行了优化。Wave32 为计算提供了几个关键优势,并补充了现有的以图形为中心的 wave64 模式。

众所周知,波前的大小是64。wave32是否意味着我们可以将波前从64配置到32?

有关于wave32的任何编码示例吗?

0 投票
0 回答
166 浏览

opencl - 如何卸载ROCM以前的版本并重新安装ROCM 4.2版本

我的主要目标是在我的 Ubuntu 20.04 上安装 OpenCl,因为我有一个 AMD-Radeon GPU,以便我在 Blender 上使用渲染。由于 Blender 没有看到 OpenCL,因此渲染目前是用我的 CPU 完成的。在处理 OpenCL ROCM 之前需要更新到 4.2 版本。不幸的是,无法直接更新。

  1. 我在 YouTube 上进行了研究,发现了一个解释https://youtu.be/efKjfBkjPlM演示者指出需要安装 ROCM,引导查看者查看安装指南https://rocmdocs.amd.com/en/latest/安装指南/安装指南.html
  2. 该指南提到作为先决条件: Ubuntu 20.04.2 HWE;但是,然后指出AMD ROCm 仅支持 Ubuntu 的长期支持 (LTS) 版本。我相信我有 LTS 版本。如何检查这个?
  3. 该指南建议完全重新安装 AMD ROCm V4.2,因为 不支持从以前的版本升级。检查https://rocmdocs.amd.com/en/latest/Installation_Guide/Installation-Guide.html#complete-reinstallation-of-amd-rocm-v4-2-recommended。我这里有货。

如何卸载之前的 ROCM 版本并重新安装 ROCM V4.2?Ubuntu 20.04 有没有 ROCm V4.2 的机会?我怎样才能检查这个?

提前谢谢您的输入。

0 投票
0 回答
232 浏览

docker - 如何在 ubuntu 上安装 tensorflow-rocm

我正在尝试用我的 AMD GPU 制作 tensorflow,我已经搜索和尝试了好几天,最后我使用了 tensorflow-rocm,这会很棒(如果它有效:/)但遗憾的是我遵循了许多指南和许多说明没有结果,我尝试的最后一个教程是这个

https://github.com/RadeonOpenCompute/ROCm-docker/blob/master/quick-start.md

所有的说明都很好,除了最后一步我应该确保 docker 容器已经成功安装,我应该输入

但它给了我“找不到命令”

和另一个命令

让我确保您在渲染组中,我毫无疑问!

我再次查看了 ROCm 网站,发现他们支持我的 ubuntu 20.4,但是当我有 5.11 时使用内核 5.8,当我恢复默认内核时它安装了 5.4!这可能是问题吗?

请注意,这是我第一次尝试 docker :/如果有人知道安装 tensorflow-rocm 的更好方法,我会很高兴