问题标签 [cupy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 从单个 gpu 转移到多个 gpu。抛出错误 TypeError: '<' not supported between 'list' 和 'int' 实例
我已经从使用单个 gpu 转变为使用多个 gpu。代码抛出错误
将在重新提出异常之前完成培训师扩展和更新程序。
我试过不使用gpu它工作得很好。但是当使用单个 gpu 时,出现内存不足的错误。所以,移动了 p28xlarge 实例,现在它抛出了上述错误。问题出在哪里以及如何解决?
使用 8 个 gpu 完成更改
3.#更新程序
4.and 儿子.. 5.Training :
输出 -- epoch main/loss validation/main/loss elapsed_time 主训练循环中的异常:在 'list' 和 'int' 的实例之间不支持 '<'
我期望输出为
python-3.x - Chainer:对象__array__方法不产生数组
在训练了 VAE 模型之后,我得到了训练好的模型。而且,保存图像应该在每个 epoch 文件夹中,但图像没有保存。不知道问题出在哪里?以及如何解决?
保存图像的功能
在编码和解码后,我将输出排除为相同的图像。
python-3.x - 如何从内存池中释放内存消耗以在 GPU 上进行训练?
使用 cupy 分配内存会引发内存不足分配问题。甚至在开始训练之前,12 GB 内存的消耗就几乎完成了。现在,在训练期间,所有的内存都被消耗掉了。
CPU 上一切正常。
我尝试将批量大小从 100 减少到个位数 (4)。由于cupy消耗内存,我已将小任务更改为numpy。我尝试过使用多个 gpu 但遇到同样的问题
- 请注意,它在 CPU 上工作 *
结果很好,但我需要为此进行更多培训,使用 cupy 和 GPU 是必要的。
nvidia - 使用cupy的GPU RAM内存碎片?
我正在 CPU 上训练 VAE 模型,它在 1 个时期内运行良好,因为我需要对其进行更多训练才能使用 GPU 获得良好的结果,我尝试在 GPU 上进行训练,但内存不足。因为,CPU 需要 25.375 GB 内存。当它被清除 GPU 内存为 12 GB 时,它会抛出内存不足。所以现在,我将代码转移到具有 8 gpu (12 * 8 GB) 内存的更大实例。因此,相应地应该解决内存不足的问题,而是将所有占用的内存从 1 gpu 复制到所有 8 GPU。因此,使用多个 GPU 是没有用的。
我发现完成整个训练的总内存是 25.375 GB。因此,使用 12 GB 的单个 GPU 会导致内存不足。现在,我使用每个 12 GB 的 8 个 GPU 来解决这个问题。
GPU:K80 Chainer:6.0.0 Cupy:6.0.0
上面的代码在 12Gb 中占用了大约 8GB 的内存。反正有没有减少它或写它减少它?
我尝试使用多个 GPU 来解决这个问题。
预期使用单个 GPU 的输出。
python-3.x - 在 Windows 环境中,如果 GPU 已经使用,Cupy 在 multithread.pool 中会出错,即使我使用了 multiprocessing.set_start_method('spawn')
我使用 chainer 框架来训练我的 CNN。为了加快速度,我使用了 cupy 和 multiprocess 包。但是,即使我添加了 multiprocessing.set_start_method('spawn') 语句,我仍然会遇到这样的错误:
CUDARuntime 错误。在里面
TypeError:需要一个整数
我的环境是:
在我问这个问题之前,我已经参考了这个链接:Cupy get error in multithread.pool if GPU already used。总程序代码太长,所以我显示我的程序的一部分(引发错误的函数)如下:
输出如下:
然后代码冻结并且不退出。我不明白为什么我添加了 multiprocessing.set_start_method('spawn') 语句,我仍然有错误消息。是因为我在 windows envs 而不是 linux 中运行程序吗?
dask - 如何从 CuPy 数组创建一个 dask 数组?
我正在尝试dask.cluster.Kmeans
使用大量数据启动。使用 CPU 是可以的,因为我numpy
用dask.array
. 由于未在cupy
.
我试图重现关于从 CuPy 随机生成器生成随机 dask 数组的Mattew Rocklin 示例( https://blog.dask.org/2019/01/03/dask-array-gpus-first-steps ) - 它有效,但这不是我想使用的情况。
cupy
用-包裹dask.array
不起作用。
我期望这个数组的总和,但得到以下错误:
那么我如何通过 dask 数组管理 CuPy 的工作呢?
numpy - 为什么 Python 和 CUDA 不支持半精度复数浮点运算?
NumPY 具有对应于两个 float32 的complex64 。
但它也有 float16,但没有 complex32。
怎么来的?我有涉及 FFT 的信号处理计算,我认为我可以使用 complex32,但我不知道如何到达那里。特别是我希望在 NVidia GPU 上使用cupy加速。
然而,float16 在 GPU 上似乎更慢而不是更快。
为什么不支持和/或忽略半精度?
cupy - 了解 cp.RawKernel 中的网格和块
第 11 页的https://buildmedia.readthedocs.org/media/pdf/cupy/latest/cupy.pdf中显示的关于使用 cp.RawKernel的示例在网格的使用方面对我来说并不清楚,因为矩阵是方形的。
我尝试改变矩阵的形状并尝试使用网格和块。我不清楚为什么要获得正确的结果我必须设置网格 8 和块 8,例如 multiply((8, ), (8, ), (p, q, z)) # grid, block and arguments
我期待检索正确的结果设置,如上面的代码 multiply((6, ), (5, ), (p, q, z)) # grid, block and arguments
你能帮我么?
python - 在cupy中反转稀疏矩阵(python中的CUDA GPU编程)
如何使用 CUDA 反转使用 python 库“cupy”创建的以下稀疏矩阵(下面命名为 row_sparse_cupy)?示例代码是
我最初的问题是根据一般大稀疏矩阵(N = 100000)设置的。我的目标是在我的 GPU 上计算倒数。我的原始矩阵的结构是具有大量零条目的一般形式(当然是可逆的)。
cupy - 使用 pip 在 Mac OS X 10.13.6 上安装 CuPy 失败
在带有 Python 3.5.7 和 Cuda 10.1 的 MacOS HighSierra 10.13.6 上
pip3.5 install cupy-cuda101 和 pip3.5 install cupy 都失败了,有不同的问题。
第一次尝试:pip3.5 install cupy-cuda101 -vvvv
[最后一行重复所有...]
第二次尝试:pip3.5 install cupy -vvvv
[...]
[...]
[...]
任何想法我做错了什么?