我正在尝试并行化包含多个过程的函数。功能如下:
void _myfunction(M1,M2){
for (a = 0; a < A; a++) {
Amatrix = procedure1(M1) /*contains for loops*/;
Bmatrix = procedure2(M1) /*contains for loops*/;
...
for ( z = 1 ; z < Z ; z++ ){
calculations with Amatrix(z) and obtain AAmatrix
calculations with Bmatrix(z) and obtain BBmatrix
for ( e = 1; e < E; e++) {
calculations with AAmatrix(e) and obtain CCmatrix
calculations with BBmatrix(e) and obtain DDmatrix
}
}
for (q = 0; q < Q; q++){ calculations with CCMatrix(q) }
for (m = 0; m < M; m++){ calculations with DDMatrix(q) }
}
}
关于函数procedure1()
和procedure2()
,我已经将它们移植到 CUDA 并且一切正常(这些过程中的每一个都有自己的 for 循环)。将这些过程分开的原因是因为它们在概念上是独立的算法,与具有更一般概念的其余代码相反。
现在我正在尝试将其余代码移植到 CUDA,但我不确定该怎么做。当然,如果可能的话,我想保持整个函数的相同结构。我的第一个想法是将函数_myfunction(arg1,arg2,..)
转换为内核,但我的问题是已经有两个内核函数在内部按顺序执行。我在某处读到我们可以使用流,但我再次不确定如何去做以及它是否正确。
问题:有人可以提示如何将程序移植到 CUDA 吗?
PS:我使用的是 GeForce 9600GT(Compute Capability 1.1)和 CUDA Toolkit 5.0。