assembly - 如何理解 CUDA/GPU 中的 SASS 分析结果

Question

我使用 CUDA Binary Utilities 之一的 cuobjdump 来生成 SASS 代码，示例结果如下。这些代码尝试从全局内存中加载。

/*0028*/ IMAD R6.CC, R3, R5, c[0x0][0x20]; 
/*0030*/ IMAD.HI.X R7, R3, R5, c[0x0][0x24]; 
/*0040*/ LD.E R2, [R6]; //load

我在哪里可以获得解释每条指令含义的 SASS 代码的完整手册。在“cuda 二进制实用程序”中，它只提供了对指令含义的一般解释。例如，它没有解释 "R1.cc"、"IMAD.HI.X" 和 LD.e 的含义。
第二条指令是什么意思。我猜第一条是计算每个线程应该加载的内存地址，而第三条指令是将全局内存加载到寄存器中。我不知道第二条指令的含义。
我猜 cuda 会将一些参数信息，如网格大小、块大小和数组基址保存到常量内存中。在这种情况下，c[0x0][0x20] 是数组的基地址。我的问题是如何获得这些信息。

score 7 · Accepted Answer

我在哪里可以获得解释每条指令含义的 SASS 代码的完整手册。

据我所知，没有这样的事情，SASS 大多是无证的（只有一个基本的参考资料），因为它因架构而异。但是，PTX 有完整的文档记录，并且许多 SASS 指令具有接近的 PTX 等效项，您可以从中推断其含义。您可能还希望将 SASS 与源信息一起转储，以更好地了解正在发生的事情。

但是鉴于这两个文档，您可以或多或少地将 SASS 翻译回 PTX 并猜测指令的含义：

/*0028*/ IMAD R6.CC, R3, R5, c[0x0][0x20];

扩展精度整数乘加：将 R3 与 R5 相乘，与存储区 0 中的常数相加，偏移量 0x20，存储在 R6 中并带有进位。

/*0030*/ IMAD.HI.X R7, R3, R5, c[0x0][0x24];

整数乘加与提取：将 R3 与 R5 相乘，提取上半部分，将上半部分与存储区 0 中的常数相加，偏移量 0x24，并通过进位存储在 R7 中。

/*0040*/ LD.E R2, [R6]; //load

加载：将寄存器对 R7:R6 指向的内容加载到 R2 中。

整个计算将 R3 与 R5 相乘，将 64 位乘积与 c[0][24]:c[0][20] 中的 64 位常数相加，并使用得到的 64 位地址来检索 R2。

我猜 cuda 会将一些参数信息，如网格大小、块大小和数组基址保存到常量内存中。[...] 我的问题是如何获得这些信息。

内置函数（threadIdx、blockIdx、blockDim、gridDim等）所在的位置未指定，并且可能因架构而异。实际上，其中一些在专用寄存器中，另一些在共享内存中。但这是一个实现细节。

注意：编辑以整合@njuffa 的评论。

1 回答 1