1

作为一个更大项目的一部分,我遇到了一个奇怪的一致错误,我无法理解,但它是一个典型的“黑匣子”错误;与 一起运行时cuda-gdb python -m pycuda.debug prog.py -args,它运行良好,但速度很慢。如果我放弃 pycuda.debug,它就会中断。一致地,在多内核执行的同一点上。

解释; 我有(目前三个)内核,用于不同的网格和块排列,以解决更大优化问题的“切片”。这些严格来说应该可以工作,也可以不工作,因为函数本身只被告知“这里还有一些数据”,除了数据的内容之外,不知道诸如迭代次数之类的任何内容,无论它们的输入数据是否已分区或不是,直到这一点,他们表现完美。

基本上,如果没有 pycuda.debug 将调试符号暴露给 GDB,我看不到发生了什么,但我也看不到 pycuda.debug 的问题。

pycuda 实际上做了什么,所以我知道在我的内核代码中寻找什么?

4

1 回答 1

1

几乎没有。它主要在 pycuda.driver 模块中设置编译器标志,以便使用必要的调试符号编译 CUDA 代码,并以 CUDA-gdb 所需的方式组装。剩下的是一个很小的包装器,它很好地封装了 pycuda 库,所以一切正常。整个过程大约20行python,如果你愿意,你可以在源代码分发中查看代码。

这里的关键是在调试器中运行的代码会将所有内容从寄存器和共享内存溢出到本地内存,以便驱动程序可以读取本地程序状态。因此,如果您的代码在为调试器构建时运行并且在正常构建时失败,这通常意味着存在共享内存缓冲区溢出或指针错误,这导致 GPU 相当于段错误。

于 2011-04-25T05:14:32.053 回答