我有四个 CUDA 内核以下列方式处理矩阵:
convolution<<<>>>(A,B);
multiplybyElement1<<<>>>(B);
multiplybyElement2<<<>>>(A);
multiplybyElement3<<<>>>(C);
// A + B + C with CUBLAS' cublasSaxpy
每个内核基本上(首先卷积除外)执行矩阵每个元素乘以在其常量内存中硬编码的固定值(以加快速度)。
我是否应该通过调用类似的方法将这些内核合并为一个
multiplyBbyX_AbyY_CbyZ<<<>>>(B,A,C)
?
全局内存应该已经在设备上,所以这可能无济于事,但我不完全确定