“cupy”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

249 浏览

python - best_local_affine_kernel.cu [WinError 126] 在 Windows 10 上找不到指定的模块

我在 Windows 10 上运行 FastPhotoStyle 代码并使用 Python 3.7、CUDA 10.0 和 cuda 9.1。尽管我进行了建议将 Python 版本从字符串升级到字节的更改，但我仍然遇到相同的错误。您能否建议解决此问题。

我已经将字符串更改为字节

2018-12-29T17:11:41.117

0 投票

1 回答

207 浏览

python - 为什么我的 RawKernel 减速器会导致 cudaErrorIllegalAddress？

我的目标是编写一个自定义归约内核，它返回每行的 argmax 以及最大值和子最大值之间的差异（第二大最大值）。我是 CUDA 的新手，我正在使用 cupy。作为第一步，我尝试编写自己的max(axis=1)内核。有时它可以工作，但对于大型矩阵它会崩溃。

内核的基本轮廓取自CUDA Webinar 幻灯片。我知道此代码对于非 32 次方矩阵可能有不正确的结果，但对于我的 (32, 1024) 矩阵，我希望得到以下结果：

事实上，当我设置cols = 32and时print(dst[0,0])，我得到：

但是使用 (32, 1024) 矩阵我得到：

我的直觉说，在内核的某个地方，它超出了界限。但我不明白那可能在哪里。如何修复此代码以获得预期结果？

python cuda cupy

2019-01-08T21:56:41.540

0 投票

1 回答

547 浏览

python - 当迭代次数增加时，Cupy 会变慢

我正在学习使用cupy。但是我发现了一个非常令人困惑的问题。起初，cupy 似乎在一个程序中表现良好。当它运行一段时间时，Cupy 似乎要慢得多。这是代码：

这是时间表现：

当cupy完成5000次power openrations时，它变得很慢。

我在 Windows 上运行了这段代码，cuda 版本是 10.0

希望得到答案。非常感谢你！

感谢您的回答！我打印了 Cupy 的内存使用情况：

这是输出：

在迭代过程中，GPU 内存使用似乎保持不变。

顺便问一下，有没有什么办法可以避免这种减速？

python gpu cupy

2019-01-26T06:32:17.150

0 投票

1 回答

85 浏览

cupy - Cupy结构数组下标

如何下标结构化的 Cupy 数组。我找不到关于它的文件...

cupy

2019-02-04T09:01:03.290

0 投票

2 回答

604 浏览

python-3.x - TypeError：列表索引必须是整数或切片，而不是 cupy.core.core.ndarray

在对象检测算法中，非最大抑制（NMS）用于丢弃对象（例如车辆）的额外检测结果。

通常，水平边界框用于对象检测算法，水平 NMS 的 GPU 实现已经存在，但我希望 GPU 实现旋转边界框。

CPU 实现已经完成，但我正在努力使用 CuPy 包将 CPU 版本转换为 GPU 版本。这是我写的代码。在代码部分之后，您可以看到错误。

我的问题是 TypeError 的原因是什么：列表索引必须是整数或切片，而不是 cupy.core.core.ndarray？

错误是

CPU 实现占用：0.3672311305999756

回溯（最近一次通话最后）：

文件“nms_rotated.py”，第 117 行，在

文件“nms_rotated.py”，第 97 行，在 nms_gpu 中

TypeError：列表索引必须是整数或切片，而不是 cupy.core.core.ndarray

更新：13.02.2019 我试过@Yuki Hashimoto 的回答

通过替换iou = polygon_iou_gpu(polys[i], polys[order[j + 1]])为 iou = polygon_iou_gpu(polys[i.get()], polys[order[j + 1].get()]). 它不会抛出任何错误，但 GPU 版本比 CPU 版本慢几倍。

通过使用 100000 次随机检测：

python-3.x gpu object-detection nms cupy

2019-02-11T01:22:03.280

0 投票

0 回答

880 浏览

python - cupy.cuda.cublas.CUBLASError: CUBLAS_STATUS_NOT_INITIALIZED 做cupy矩阵乘法时

我是一个新手来处理管理conda环境和pip等。当我尝试做两个cupy数组矩阵（matrix_V和vector_u）点积时，我遇到了以下错误消息：

我认为这可能是由于某些包版本冲突引起的。但我不知道如何解决这个问题。我正在使用 Cuda 10.0.130 和 CuDNN 7.3.1。我已经验证它们都有效。我正在使用通过 pip 安装的 cupy-cuda100，我可以在我的虚拟环境中成功导入它。我不使用 conda 的原因是因为 conda (5.1.0) 中的 cupy 版本可能太低，我的程序抱怨它。我希望这些信息会有所帮助。如果没有，请告诉我哪些信息有帮助。

提前致谢。

我试图按照 Kenichi 的建议调用 cupy.cuda.get_cublas_handle() 。我收到以下错误消息：

我还注意到 pip install cupy 也安装了一个 numpy，而我的虚拟环境中已经安装了一个 numpy 安装了 tensorflow。即使两个 numpy 都有相同的版本，我想知道这是否是问题所在。

这是运行 batchCUBLAS 示例的输出：

cupy.show_config()输出：

pip freeze | grep cupy输出：

python cupy

2019-02-12T19:27:19.970

0 投票

3 回答

1580 浏览

python - Cupy 中的慢速 GPU 比较

我想使用cupy测试浮点数是否为正，例如：

我的问题是这个操作非常慢： %timeit u < 2.在我的电脑上给出 26 微秒。它比我在 CPU 中得到的要大几个数量级。我怀疑这是因为你必须被投到CPU上......

我正在尝试找到一种更快的方法来执行此操作。

谢谢！

编辑澄清

我的代码是这样的：

似乎这段代码的瓶颈（对于 this n）是对result < 1.2. 它仍然比 CPU 快得多，因为dot成本要低得多。

python numpy gpu cupy

2019-02-19T14:57:42.487

0 投票

2 回答

1844 浏览

python-3.x - 如果 GPU 已经使用，Cupy 在 multithread.pool 中出现错误

我尝试在我的程序的两个部分中使用 cupy，其中一个与池并行化。我设法用一个简单的例子重现了它：

输出如下：

此外，代码冻结并且不退出，但我认为它与cupy无关。

我的配置是这样的：

python-3.x python-multiprocessing cupy

2019-02-21T13:21:57.163

0 投票

1 回答

120 浏览

python - 如何子类化 CuPy 数组？

对于 NumPy，可以使用

但是对于 Cupy，以下操作会导致段错误：

我浏览了文档，但发现的信息很少。这是预期的吗？我正在使用 CuPy 5.2、Python 3.6.8 和 CUDA10。

python cupy

2019-02-25T01:49:19.243

0 投票

2 回答

8328 浏览

python - Cuda 运行时错误 cudaErrorNoDevice：未检测到支持 CUDA 的设备

我正在为CUDA 8.0使用 Chainer, Cupy 。我正在尝试使用python3.5脚本训练机器学习模型，但出现此错误：

我能做些什么来解决它？

我尝试在其上训练深度学习模型的机器的环境详细信息，其中提供了有关 nvidi-smi、echo CUDA_PATH、echo LD_LIBRARY_PATH 的详细信息：

检查 CUDA 路径

检查 LD_LIBRARY_PATH：

检查环境 | grep CUDA 路径：

检查python3路径

检查点子路径

检查已安装的 python 库和版本详细信息：

链接器 CUDA 信息：

完整的错误回溯：

python django cuda chainer cupy

2019-03-18T10:04:29.603

问题标签 [cupy]

Reference