这样做的方法是打印 *(void * @parameter *) addr
其中 addr 是常量库 0 内应打印的地址。
例子
假设我们在一个名为的文件中有一个简单的内核foo.cu
:
#include <cuda.h>
#include <stdio.h>
#include <cuda_runtime.h>
__global__ void myKernel(int a, int b, int *d)
{
*d = a + b;
}
int main(int argc, char *argv[]) {
if (argc < 3) {
printf("Requires inputs a and b to be specified\n");
return 0;
}
int * dev_d;
int d;
cudaMalloc(&dev_d, sizeof(*dev_d));
myKernel<<<1, 1>>>(atoi(argv[1]), atoi(argv[2]), dev_d);
cudaMemcpy(&d, dev_d, sizeof(d), cudaMemcpyDeviceToHost);
cudaFree(dev_d);
printf("D is: %d\n", d);
return 0;
}
这是通过编译的
$ nvcc foo.cu -o foo.out
接下来,假设我们有兴趣反汇编这个程序,所以我们cuda-gdb
使用命令行为我们的程序执行:
$ cuda-gdb --args ./foo.out 10 15
在里面cuda-gdb
,我们通过键入进入内核
(cuda-gdb) set cuda break_on_launch application
(cuda-gdb) start
Temporary breakpoint 1, 0x000055555555b12a in main ()
(cuda-gdb) cont
在内核内部,我们查看我们有兴趣调试的反汇编:
(cuda-gdb) x/15i $pc
=> 0x555555b790a8 <_Z8myKerneliiPi+8>: MOV R1, c[0x0][0x20]
0x555555b790b0 <_Z8myKerneliiPi+16>: MOV R0, c[0x0][0x144]
0x555555b790b8 <_Z8myKerneliiPi+24>: MOV R2, c[0x0][0x148]
0x555555b790c0 <_Z8myKerneliiPi+32>:
0x555555b790c8 <_Z8myKerneliiPi+40>: MOV R3, c[0x0][0x14c]
0x555555b790d0 <_Z8myKerneliiPi+48>: IADD R0, R0, c[0x0][0x140]
0x555555b790d8 <_Z8myKerneliiPi+56>: STG.E [R2], R0
0x555555b790e0 <_Z8myKerneliiPi+64>:
0x555555b790e8 <_Z8myKerneliiPi+72>: NOP
0x555555b790f0 <_Z8myKerneliiPi+80>: NOP
0x555555b790f8 <_Z8myKerneliiPi+88>: NOP
0x555555b79100 <_Z8myKerneliiPi+96>:
0x555555b79108 <_Z8myKerneliiPi+104>: EXIT
0x555555b79110 <_Z8myKerneliiPi+112>: BRA 0x70
0x555555b79118 <_Z8myKerneliiPi+120>: NOP
传递给IADD
指令的第二个参数位于其中一个常量内存库中。让我们找出它的实际价值。我们提前转到IADD
指令:
(cuda-gdb) stepi 4
0x0000555555b790d0 in myKernel(int, int, int*)<<<(1,1,1),(1,1,1)>>> ()
(cuda-gdb) x/i $pc
=> 0x555555b790d0 <_Z8myKerneliiPi+48>: IADD R0, R0, c[0x0][0x140]
我们现在可以获得c[0x0][0x140]
如下内容:
(cuda-gdb) print (int) *(void * @parameter *) 0x140
$1 = 10
在这里,我们知道参数应该有 32 位,所以我们将其转换为 (32-bit) int
。如果我们没有这样做,我们会得到太多位,例如:
(cuda-gdb) print *(void * @parameter *) 0x140
$2 = 0xf0000000a
print
请注意,可以通过在命令后添加 /x 来保留十六进制格式:
(cuda-gdb) print/x (int) *(void * @parameter *)0x140
$3 = 0xa