cuda - CUDA非法访问地址陌生

Question

我的问题是：CUDA 硬件是否有故障，或者是否有其他解释？我有一个内核已经使用了大约一年而没有修改。最近，我开始以不规则的间隔出现分段错误，即它可以重现，有时在几分钟后，有时在执行数小时后。这导致程序的最低版本仍然重现了段错误。以及从 stackoverflow 帖子中学到的很多东西。

cuda-memcheck 在重复 bash 循环中运行时，最终会报告：

========= Invalid __global__ read of size 4
=========     at 0x000048f0 in SegFault.cu:157:SegFault( float* )
=========     by thread (128,0,0) in block (3706,0,0)
=========     Address 0x003400e8 is out of bounds

错误指针操作的常见罪魁祸首已被排除。另一个线索是非法寻址在代码中出现的位置不一致；在整个内核中，对于全局数组的任何索引，它都会不规则地发生。

在我的问题的这一点上，最可能的解释是错误代码。是什么让我相信硬件有故障来自 cuda-gdb：

cuda-gdb ./SegFaultTest
(cuda-gdb) set cuda memcheck on
(cuda-gdb) run
Illegal access to address (@global)0x245684 detected.

Program received signal CUDA_EXCEPTION_1, Lane Illegal Address.
[Switching focus to CUDA kernel 0, grid 1, block (5537,0,0), thread (0,0,0), device 0, sm 22, warp 28, lane 0]
0x00000000004f1ff8 in kernel( float * @global )<<<(33480,1,1),(512,1,1)>>> ( c=0x250000 ) at SegFault.cu:37
37              c[ix] += share_c[0];

(cuda-gdb) print &c[ix]
$2 = (@global float *) 0x255684

索引“ix”是：

int ix = blockIdx.x + blockIdx.y*gridDim.x;

并且在实例化后不被修改。确实，0x245684低于的起始地址c=0x250000。然而，当我查询print &c[ix]它返回时0x255684，这是该数组可接受的地址。复制在再次弹出之前需要执行 10-50 次，但非法地址总是与返回的地址有一点0x010000不同。print &c[ix] 我无法解释错误消息和打印之间的地址差异。结合一点点差异，我怀疑硬件有问题。FWIW0x010000等于此 Tesla C1060 的最大网格大小。

最后，我今天用新型号替换了 CUDA 卡。执行 100 次后我无法重现。

score 2 · Accepted Answer

如果启用 memcheck 的 cuda-gdb 报告非法地址访问，例如：

Illegal access to address (@global)0x245684 detected.

Program received signal CUDA_EXCEPTION_1, Lane Illegal Address.
[Switching focus to CUDA kernel 0, grid 1, block (5537,0,0), thread (0,0,0), device 0, sm 22, warp 28, lane 0]
0x00000000004f1ff8 in kernel( float * @global )<<<(33480,1,1),(512,1,1)>>> ( c=0x250000 ) at SegFault.cu:37
37              c[ix] += share_c[0];

查询该地址会返回不同的值：

(cuda-gdb) print &c[ix]
$2 = (@global float *) 0x255684

然后硬件坏了。

cuda - CUDA非法访问地址陌生

1 回答 1

Related

Reference