问题标签 [cupy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
102 浏览

python - 从单个 gpu 转移到多个 gpu。抛出错误 TypeError: '<' not supported between 'list' 和 'int' 实例

我已经从使用单个 gpu 转变为使用多个 gpu。代码抛出错误

将在重新提出异常之前完成培训师扩展和更新程序。

我试过不使用gpu它工作得很好。但是当使用单个 gpu 时,出现内存不足的错误。所以,移动了 p28xlarge 实例,现在它抛出了上述错误。问题出在哪里以及如何解决?

使用 8 个 gpu 完成更改

3.#更新程序

4.and 儿子.. 5.Training :

输出 -- epoch main/loss validation/main/loss elapsed_time 主训练循环中的异常:在 'list' 和 'int' 的实例之间不支持 '<'

我期望输出为

0 投票
0 回答
1780 浏览

python-3.x - Chainer:对象__array__方法不产生数组

在训练了 VAE 模型之后,我得到了训练好的模型。而且,保存图像应该在每个 epoch 文件夹中,但图像没有保存。不知道问题出在哪里?以及如何解决?

保存图像的功能

在编码和解码后,我将输出排除为相同的图像。

0 投票
0 回答
131 浏览

python-3.x - 如何从内存池中释放内存消耗以在 GPU 上进行训练?

使用 cupy 分配内存会引发内存不足分配问题。甚至在开始训练之前,12 GB 内存的消耗就几乎完成了。现在,在训练期间,所有的内存都被消耗掉了。

CPU 上一切正常。

我尝试将批量大小从 100 减少到个位数 (4)。由于cupy消耗内存,我已将小任务更改为numpy。我尝试过使用多个 gpu 但遇到同样的问题

please_refer_this

  • 请注意,它在 CPU 上工作 *

结果很好,但我需要为此进行更多培训,使用 cupy 和 GPU 是必要的。

0 投票
0 回答
157 浏览

nvidia - 使用cupy的GPU RAM内存碎片?

我正在 CPU 上训练 VAE 模型,它在 1 个时期内运行良好,因为我需要对其进行更多训练才能使用 GPU 获得良好的结果,我尝试在 GPU 上进行训练,但内存不足。因为,CPU 需要 25.375 GB 内存。当它被清除 GPU 内存为 12 GB 时,它会抛出内存不足。所以现在,我将代码转移到具有 8 gpu (12 * 8 GB) 内存的更大实例。因此,相应地应该解决内存不足的问题,而是将所有占用的内存从 1 gpu 复制到所有 8 GPU。因此,使用多个 GPU 是没有用的。

我发现完成整个训练的总内存是 25.375 GB。因此,使用 12 GB 的单个 GPU 会导致内存不足。现在,我使用每个 12 GB 的 8 个 GPU 来解决这个问题。

GPU:K80 Chainer:6.0.0 Cupy:6.0.0

上面的代码在 12Gb 中占用了大约 8GB 的​​内存。反正有没有减少它或写它减少它?

我尝试使用多个 GPU 来解决这个问题。

预期使用单个 GPU 的输出。

0 投票
1 回答
204 浏览

python-3.x - 在 Windows 环境中,如果 GPU 已经使用,Cupy 在 multithread.pool 中会出错,即使我使用了 multiprocessing.set_start_method('spawn')

我使用 chainer 框架来训练我的 CNN。为了加快速度,我使用了 cupy 和 multiprocess 包。但是,即使我添加了 multiprocessing.set_start_method('spawn') 语句,我仍然会遇到这样的错误:

CUDARuntime 错误。在里面

TypeError:需要一个整数

我的环境是:

在我问这个问题之前,我已经参考了这个链接:Cupy get error in multithread.pool if GPU already used。总程序代码太长,所以我显示我的程序的一部分(引发错误的函数)如下:

输出如下:

然后代码冻结并且不退出。我不明白为什么我添加了 multiprocessing.set_start_method('spawn') 语句,我仍然有错误消息。是因为我在 windows envs 而不是 linux 中运行程序吗?

0 投票
1 回答
683 浏览

dask - 如何从 CuPy 数组创建一个 dask 数组?

我正在尝试dask.cluster.Kmeans使用大量数据启动。使用 CPU 是可以的,因为我numpydask.array. 由于未在cupy.

我试图重现关于从 CuPy 随机生成器生成随机 dask 数组的Mattew Rocklin 示例( https://blog.dask.org/2019/01/03/dask-array-gpus-first-steps ) - 它有效,但这不是我想使用的情况。

cupy用-包裹dask.array不起作用。

我期望这个数组的总和,但得到以下错误:

那么我如何通过 dask 数组管理 CuPy 的工作呢?

0 投票
1 回答
887 浏览

numpy - 为什么 Python 和 CUDA 不支持半精度复数浮点运算?

NumPY 具有对应于两个 float32 的complex64 。

但它也有 float16,但没有 complex32。

怎么来的?我有涉及 FFT 的信号处理计算,我认为我可以使用 complex32,但我不知道如何到达那里。特别是我希望在 NVidia GPU 上使用cupy加速。

然而,float16 在 GPU 上似乎更慢而不是更快。

为什么不支持和/或忽略半精度?

同样相关的是为什么我们没有复杂的整数,因为这也可能提供加速的机会

0 投票
1 回答
166 浏览

cupy - 了解 cp.RawKernel 中的网格和块

第 11 页的https://buildmedia.readthedocs.org/media/pdf/cupy/latest/cupy.pdf中显示的关于使用 cp.RawKernel的示例在网格的使用方面对我来说并不清楚,因为矩阵是方形的。

我尝试改变矩阵的形状并尝试使用网格和块。我不清楚为什么要获得正确的结果我必须设置网格 8 和块 8,例如 multiply((8, ), (8, ), (p, q, z)) # grid, block and arguments

我期待检索正确的结果设置,如上面的代码 multiply((6, ), (5, ), (p, q, z)) # grid, block and arguments

你能帮我么?

0 投票
0 回答
551 浏览

python - 在cupy中反转稀疏矩阵(python中的CUDA GPU编程)

如何使用 CUDA 反转使用 python 库“cupy”创建的以下稀疏矩阵(下面命名为 row_sparse_cupy)?示例代码是

我最初的问题是根据一般大稀疏矩阵(N = 100000)设置的。我的目标是在我的 GPU 上计算倒数。我的原始矩阵的结构是具有大量零条目的一般形式(当然是可逆的)。

0 投票
1 回答
955 浏览

cupy - 使用 pip 在 Mac OS X 10.13.6 上安装 CuPy 失败

在带有 Python 3.5.7 和 Cuda 10.1 的 MacOS HighSierra 10.13.6 上

pip3.5 install cupy-cuda101 和 pip3.5 install cupy 都失败了,有不同的问题。

第一次尝试:pip3.5 install cupy-cuda101 -vvvv

[最后一行重复所有...]


第二次尝试:pip3.5 install cupy -vvvv

[...]

[...]

[...]


任何想法我做错了什么?