我对 GPU 编程很陌生。我阅读了一些解释基本概念的材料。
但是,我想知道是否可以将一组指令或整个算法/二进制文件分配给特定的 ALU,以便我可以确定这些指令仅由该 ALU 执行(因此,绕过自动负责并行化)?
我必须对 GPU 上的各个 ALU 进行“基准测试”,了解它们之间的任何潜在计算延迟。因此,我想将一组(相似的)指令分配给几个特定的 ALU,测量执行这组指令所需的时间,并比较结果是否有任何差异。
一般来说,我想检查 GPU 是否有某些竞争条件来源。我首先想到的是不同 ALU 的执行速度可能存在微小的差异。也许你们知道其他潜在的竞争条件来源。
但是,由于我的目标与 GPU 的典型使用(并行化等)截然相反,因此很难理解如何使用通用工具在低级别访问单个 ALU。
此致,