问题标签 [cupy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - best_local_affine_kernel.cu [WinError 126] 在 Windows 10 上找不到指定的模块
我在 Windows 10 上运行 FastPhotoStyle 代码并使用 Python 3.7、CUDA 10.0 和 cuda 9.1。尽管我进行了建议将 Python 版本从字符串升级到字节的更改,但我仍然遇到相同的错误。您能否建议解决此问题。
我已经将字符串更改为字节
python - 为什么我的 RawKernel 减速器会导致 cudaErrorIllegalAddress?
我的目标是编写一个自定义归约内核,它返回每行的 argmax 以及最大值和子最大值之间的差异(第二大最大值)。我是 CUDA 的新手,我正在使用 cupy。作为第一步,我尝试编写自己的max(axis=1)
内核。有时它可以工作,但对于大型矩阵它会崩溃。
内核的基本轮廓取自CUDA Webinar 幻灯片。我知道此代码对于非 32 次方矩阵可能有不正确的结果,但对于我的 (32, 1024) 矩阵,我希望得到以下结果:
事实上,当我设置cols = 32
and时print(dst[0,0])
,我得到:
但是使用 (32, 1024) 矩阵我得到:
我的直觉说,在内核的某个地方,它超出了界限。但我不明白那可能在哪里。如何修复此代码以获得预期结果?
python - 当迭代次数增加时,Cupy 会变慢
我正在学习使用cupy。但是我发现了一个非常令人困惑的问题。起初,cupy 似乎在一个程序中表现良好。当它运行一段时间时,Cupy 似乎要慢得多。这是代码:
这是时间表现:
当cupy完成5000次power openrations时,它变得很慢。
我在 Windows 上运行了这段代码,cuda 版本是 10.0
希望得到答案。非常感谢你!
感谢您的回答!我打印了 Cupy 的内存使用情况:
这是输出:
在迭代过程中,GPU 内存使用似乎保持不变。
顺便问一下,有没有什么办法可以避免这种减速?
cupy - Cupy结构数组下标
如何下标结构化的 Cupy 数组。我找不到关于它的文件...
python-3.x - TypeError:列表索引必须是整数或切片,而不是 cupy.core.core.ndarray
在对象检测算法中,非最大抑制(NMS)用于丢弃对象(例如车辆)的额外检测结果。
通常,水平边界框用于对象检测算法,水平 NMS 的 GPU 实现已经存在,但我希望 GPU 实现旋转边界框。
CPU 实现已经完成,但我正在努力使用 CuPy 包将 CPU 版本转换为 GPU 版本。这是我写的代码。在代码部分之后,您可以看到错误。
我的问题是 TypeError 的原因是什么:列表索引必须是整数或切片,而不是 cupy.core.core.ndarray?
错误是
CPU 实现占用:0.3672311305999756
回溯(最近一次通话最后):
文件“nms_rotated.py”,第 117 行,在
文件“nms_rotated.py”,第 97 行,在 nms_gpu 中
TypeError:列表索引必须是整数或切片,而不是 cupy.core.core.ndarray
更新:13.02.2019 我试过@Yuki Hashimoto 的回答
通过替换iou = polygon_iou_gpu(polys[i], polys[order[j + 1]])
为 iou = polygon_iou_gpu(polys[i.get()], polys[order[j + 1].get()])
. 它不会抛出任何错误,但 GPU 版本比 CPU 版本慢几倍。
通过使用 100000 次随机检测:
python - cupy.cuda.cublas.CUBLASError: CUBLAS_STATUS_NOT_INITIALIZED 做cupy矩阵乘法时
我是一个新手来处理管理conda环境和pip等。当我尝试做两个cupy数组矩阵(matrix_V和vector_u)点积时,我遇到了以下错误消息:
我认为这可能是由于某些包版本冲突引起的。但我不知道如何解决这个问题。我正在使用 Cuda 10.0.130 和 CuDNN 7.3.1。我已经验证它们都有效。我正在使用通过 pip 安装的 cupy-cuda100,我可以在我的虚拟环境中成功导入它。我不使用 conda 的原因是因为 conda (5.1.0) 中的 cupy 版本可能太低,我的程序抱怨它。我希望这些信息会有所帮助。如果没有,请告诉我哪些信息有帮助。
提前致谢。
我试图按照 Kenichi 的建议调用 cupy.cuda.get_cublas_handle() 。我收到以下错误消息:
我还注意到 pip install cupy 也安装了一个 numpy,而我的虚拟环境中已经安装了一个 numpy 安装了 tensorflow。即使两个 numpy 都有相同的版本,我想知道这是否是问题所在。
这是运行 batchCUBLAS 示例的输出:
cupy.show_config()
输出:
pip freeze | grep cupy
输出:
python - Cupy 中的慢速 GPU 比较
我想使用cupy测试浮点数是否为正,例如:
我的问题是这个操作非常慢:
%timeit u < 2.
在我的电脑上给出 26 微秒。它比我在 CPU 中得到的要大几个数量级。我怀疑这是因为你必须被投到CPU上......
我正在尝试找到一种更快的方法来执行此操作。
谢谢 !
编辑澄清
我的代码是这样的:
似乎这段代码的瓶颈(对于 this n
)是对result < 1.2
. 它仍然比 CPU 快得多,因为dot
成本要低得多。
python-3.x - 如果 GPU 已经使用,Cupy 在 multithread.pool 中出现错误
我尝试在我的程序的两个部分中使用 cupy,其中一个与池并行化。我设法用一个简单的例子重现了它:
输出如下:
此外,代码冻结并且不退出,但我认为它与cupy无关。
我的配置是这样的:
python - 如何子类化 CuPy 数组?
对于 NumPy,可以使用
但是对于 Cupy,以下操作会导致段错误:
我浏览了文档,但发现的信息很少。这是预期的吗?我正在使用 CuPy 5.2、Python 3.6.8 和 CUDA10。
python - Cuda 运行时错误 cudaErrorNoDevice:未检测到支持 CUDA 的设备
我正在为CUDA 8.0使用 Chainer, Cupy 。我正在尝试使用python3.5脚本训练机器学习模型,但出现此错误:
我能做些什么来解决它?
我尝试在其上训练深度学习模型的机器的环境详细信息,其中提供了有关 nvidi-smi、echo CUDA_PATH、echo LD_LIBRARY_PATH 的详细信息:
检查 CUDA 路径
检查 LD_LIBRARY_PATH:
检查环境 | grep CUDA 路径:
检查python3路径
检查点子路径
检查已安装的 python 库和版本详细信息:
链接器 CUDA 信息:
完整的错误回溯: