如何并行化矩阵转置?
我知道要转置矩阵,我必须对此应用一些东西:
for (int i = 0; i < matrix.length - 1; i++) {
for (int j = i + 1; j < matrix[i].length; j++) {
tmp = matrix[i][j];
matrix[i][j] = matrix[j][i];
matrix[j][i] = tmp;
}
}
但是如何并行化这个操作,我不知道。
我需要创建 N 个线程来转置矩阵 4n x 4n。