1

我将使用 CUDA 7.0 (cuSolver) 的 SVD 例程,我需要在拆分矩阵的所有部分上执行 SVD(例如,将矩阵划分为 2x2 块,我想并行执行四倍的 SVD)。这个想法是多次调用与矩阵细分相关的内核。所以:

for loop(istart){
   for loop(jstart){
       "invoke kernel"
   }
}

但是这样对内核的调用是串行的,而不是并行的。由于无法从内核调用这些函数,我该如何并行化这些调用?

4

0 回答 0