我将使用 CUDA 7.0 (cuSolver) 的 SVD 例程,我需要在拆分矩阵的所有部分上执行 SVD(例如,将矩阵划分为 2x2 块,我想并行执行四倍的 SVD)。这个想法是多次调用与矩阵细分相关的内核。所以:
for loop(istart){
for loop(jstart){
"invoke kernel"
}
}
但是这样对内核的调用是串行的,而不是并行的。由于无法从内核调用这些函数,我该如何并行化这些调用?
我将使用 CUDA 7.0 (cuSolver) 的 SVD 例程,我需要在拆分矩阵的所有部分上执行 SVD(例如,将矩阵划分为 2x2 块,我想并行执行四倍的 SVD)。这个想法是多次调用与矩阵细分相关的内核。所以:
for loop(istart){
for loop(jstart){
"invoke kernel"
}
}
但是这样对内核的调用是串行的,而不是并行的。由于无法从内核调用这些函数,我该如何并行化这些调用?