我知道这听起来很奇怪,但这是我的场景:
我需要进行矩阵-矩阵乘法 (A(n*k)*B(k*n)),但我只需要为输出矩阵评估对角线元素。我搜索了 cublas 库,没有找到任何可以做到这一点的 2 级或 3 级函数。因此,我决定将 A 的每一行和 B 的每一列分配到 CUDA 线程中。对于每个线程(idx),我需要计算点积“A[idx,:]*B[:,idx]”并将其保存为对应的对角线输出。现在因为这个点积也需要一些时间,我想知道我是否可以在这里调用 cublas 函数(比如 cublasSdot)来实现它。
如果我错过了一些可以直接实现我的目标的 cublas 函数(仅计算矩阵-矩阵乘法的对角线元素),则可以丢弃这个问题。