使用 PGI 编译器使用 OpenACC 加速 Fortran 代码,我遇到matmul
了加速循环中的调用问题。
在简化示例中,我将单位矩阵应用于两个向量,因此输入和输出值应该相同:
program test
implicit none
integer :: a(3, 3)
integer :: v1(3, 2), v2(3, 2)
integer :: i
a = reshape([1, 0, 0, 0, 1, 0, 0, 0, 1], [3, 3])
v1 = reshape([1, 2, 3, 4, 5, 6], [3, 2])
print *, v1
!$acc kernels copyin(a, v1) copyout(v2)
!$acc loop independent
do i = 1, 2
v2(:, i) = matmul(a, v1(:, i))
enddo
!$acc end kernels
print *, v2
endprogram
使用 PGI 编译器 20.9 版进行编译时,我得到了以下信息:
test:
12, Generating copyin(a(:,:),v1(:,:)) [if not already present]
Generating implicit copyout(z_a_0(:)) [if not already present]
Generating copyout(v2(:,:)) [if not already present]
14, Loop is parallelizable
Generating Tesla code
14, !$acc loop gang ! blockidx%x
15, !$acc loop vector(32) ! threadidx%x
15, Loop is parallelizable
运行代码会给出以下值:
1 2 3 4 5 6
4 5 6 4 5 6
第二行应该和第一行一样,顺序执行就是这种情况。代码有什么问题?