问题标签 [cupy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
249 浏览

python - best_local_affine_kernel.cu [WinError 126] 在 Windows 10 上找不到指定的模块

我在 Windows 10 上运行 FastPhotoStyle 代码并使用 Python 3.7、CUDA 10.0 和 cuda 9.1。尽管我进行了建议将 Python 版本从字符串升级到字节的更改,但我仍然遇到相同的错误。您能否建议解决此问题。

我已经将字符串更改为字节

0 投票
1 回答
207 浏览

python - 为什么我的 RawKernel 减速器会导致 cudaErrorIllegalAddress?

我的目标是编写一个自定义归约内核,它返回每行的 argmax 以及最大值和子最大值之间的差异(第二大最大值)。我是 CUDA 的新手,我正在使用 cupy。作为第一步,我尝试编写自己的max(axis=1)内核。有时它可以工作,但对于大型矩阵它会崩溃。

内核的基本轮廓取自CUDA Webinar 幻灯片。我知道此代码对于非 32 次方矩阵可能有不正确的结果,但对于我的 (32, 1024) 矩阵,我希望得到以下结果:

事实上,当我设置cols = 32and时print(dst[0,0]),我得到:

但是使用 (32, 1024) 矩阵我得到:

我的直觉说,在内核的某个地方,它超出了界限。但我不明白那可能在哪里。如何修复此代码以获得预期结果?

0 投票
1 回答
547 浏览

python - 当迭代次数增加时,Cupy 会变慢

我正在学习使用cupy。但是我发现了一个非常令人困惑的问题。起初,cupy 似乎在一个程序中表现良好。当它运行一段时间时,Cupy 似乎要慢得多。这是代码:

这是时间表现:

当cupy完成5000次power openrations时,它变得很慢。

我在 Windows 上运行了这段代码,cuda 版本是 10.0

希望得到答案。非常感谢你!


感谢您的回答!我打印了 Cupy 的内存使用情况:

这是输出:

在迭代过程中,GPU 内存使用似乎保持不变。

顺便问一下,有没有什么办法可以避免这种减速?

0 投票
1 回答
85 浏览

cupy - Cupy结构数组下标

如何下标结构化的 Cupy 数组。我找不到关于它的文件...

0 投票
2 回答
604 浏览

python-3.x - TypeError:列表索引必须是整数或切片,而不是 cupy.core.core.ndarray

在对象检测算法中,非最大抑制(NMS)用于丢弃对象(例如车辆)的额外检测结果。

通常,水平边界框用于对象检测算法,水平 NMS 的 GPU 实现已经存在,但我希望 GPU 实现旋转边界框。

CPU 实现已经完成,但我正在努力使用 CuPy 包将 CPU 版本转换为 GPU 版本。这是我写的代码。在代码部分之后,您可以看到错误。

我的问题是 TypeError 的原因是什么:列表索引必须是整数或切片,而不是 cupy.core.core.ndarray?

错误是

CPU 实现占用:0.3672311305999756

回溯(最近一次通话最后):

文件“nms_rotated.py”,第 117 行,在

文件“nms_rotated.py”,第 97 行,在 nms_gpu 中

TypeError:列表索引必须是整数或切片,而不是 cupy.core.core.ndarray

更新:13.02.2019 我试过@Yuki Hashimoto 的回答

通过替换iou = polygon_iou_gpu(polys[i], polys[order[j + 1]]) iou = polygon_iou_gpu(polys[i.get()], polys[order[j + 1].get()]). 它不会抛出任何错误,但 GPU 版本比 CPU 版本慢几倍。

通过使用 100000 次随机检测:

0 投票
0 回答
880 浏览

python - cupy.cuda.cublas.CUBLASError: CUBLAS_STATUS_NOT_INITIALIZED 做cupy矩阵乘法时

我是一个新手来处理管理conda环境和pip等。当我尝试做两个cupy数组矩阵(matrix_V和vector_u)点积时,我遇到了以下错误消息:

我认为这可能是由于某些包版本冲突引起的。但我不知道如何解决这个问题。我正在使用 Cuda 10.0.130 和 CuDNN 7.3.1。我已经验证它们都有效。我正在使用通过 pip 安装的 cupy-cuda100,我可以在我的虚拟环境中成功导入它。我不使用 conda 的原因是因为 conda (5.1.0) 中的 cupy 版本可能太低,我的程序抱怨它。我希望这些信息会有所帮助。如果没有,请告诉我哪些信息有帮助。

提前致谢。

我试图按照 Kenichi 的建议调用 cupy.cuda.get_cublas_handle() 。我收到以下错误消息:

我还注意到 pip install cupy 也安装了一个 numpy,而我的虚拟环境中已经安装了一个 numpy 安装了 tensorflow。即使两个 numpy 都有相同的版本,我想知道这是否是问题所在。

这是运行 batchCUBLAS 示例的输出:

cupy.show_config()输出:

pip freeze | grep cupy输出:

0 投票
3 回答
1580 浏览

python - Cupy 中的慢速 GPU 比较

我想使用cupy测试浮点数是否为正,例如:

我的问题是这个操作非常慢: %timeit u < 2.在我的电脑上给出 26 微秒。它比我在 CPU 中得到的要大几个数量级。我怀疑这是因为你必须被投到CPU上......

我正在尝试找到一种更快的方法来执行此操作。

谢谢 !

编辑澄清

我的代码是这样的:

似乎这段代码的瓶颈(对于 this n)是对result < 1.2. 它仍然比 CPU 快得多,因为dot成本要低得多。

0 投票
2 回答
1844 浏览

python-3.x - 如果 GPU 已经使用,Cupy 在 multithread.pool 中出现错误

我尝试在我的程序的两个部分中使用 cupy,其中一个与池并行化。我设法用一个简单的例子重现了它:

输出如下:

此外,代码冻结并且不退出,但我认为它与cupy无关。

我的配置是这样的:

0 投票
1 回答
120 浏览

python - 如何子类化 CuPy 数组?

对于 NumPy,可以使用

但是对于 Cupy,以下操作会导致段错误:

我浏览了文档,但发现的信息很少。这是预期的吗?我正在使用 CuPy 5.2、Python 3.6.8 和 CUDA10。

0 投票
2 回答
8328 浏览

python - Cuda 运行时错误 cudaErrorNoDevice:未检测到支持 CUDA 的设备

我正在为CUDA 8.0使用 Chainer, Cupy 。我正在尝试使用python3.5脚本训练机器学习模型,但出现此错误:

我能做些什么来解决它?

我尝试在其上训练深度学习模型的机器的环境详细信息,其中提供了有关 nvidi-smi、echo CUDA_PATH、echo LD_LIBRARY_PATH 的详细信息:

检查 CUDA 路径

检查 LD_LIBRARY_PATH:

检查环境 | grep CUDA 路径:

检查python3路径

检查点子路径

检查已安装的 python 库和版本详细信息:

链接器 CUDA 信息:

完整的错误回溯: