0

我正在尝试在 PGI 的 fortran 编译器中制作一个简单的程序。这个简单的程序将使用显卡使用“飞镖板”算法计算 pi。在与这个程序斗争了相当长一段时间之后,我终于让它在大多数情况下都能正常工作。但是,我目前坚持正确传回结果。我必须说,这是一个相当棘手的调试程序,因为我不能再将任何打印语句推入子程序。该程序当前返回全零。我不确定发生了什么,但我有两个想法。我不知道如何解决这两个问题:

  1. CUDA 内核没有以某种方式运行?
  2. 我没有正确转换值?pi_parts = pi_parts_d

嗯,这就是我当前程序的状态。末尾带有的所有变量_d都代表 CUDA 准备的设备内存,其中所有其他变量(CUDA 内核除外)都是典型的 Fortran CPU 准备变量。现在有一些我已经注释掉的打印语句,我已经从 CPU Fortran 领域尝试过。这些命令是为了检查我是否真的正确地生成了随机数。至于 CUDA 方法,我目前已将计算注释掉并替换z为静态等于,1只是为了看看发生了什么。

module calcPi
contains
    attributes(global) subroutine pi_darts(x, y, results, N)
        use cudafor
        implicit none
        integer :: id
        integer, value :: N
        real, dimension(N) :: x, y, results
        real :: z

        id = (blockIdx%x-1)*blockDim%x + threadIdx%x

        if (id .lt. N) then
            ! SQRT NOT NEEDED, SQRT(1) === 1
            ! Anything above and below 1 would stay the same even with the applied
            ! sqrt function. Therefore using the sqrt function wastes GPU time.
            z = 1.0
            !z = x(id)*x(id)+y(id)*y(id)
            !if (z .lt. 1.0) then
            !   z = 1.0
            !else
            !   z = 0.0
            !endif
            results(id) = z
        endif
    end subroutine pi_darts
end module calcPi

program final_project
    use calcPi
    use cudafor
    implicit none
    integer, parameter :: N = 400
    integer :: i
    real, dimension(N) :: x, y, pi_parts
    real, dimension(N), device :: x_d, y_d, pi_parts_d
    type(dim3) :: grid, tBlock

    ! Initialize the random number generaters seed
    call random_seed()

    ! Make sure we initialize the parts with 0
    pi_parts = 0

    ! Prepare the random numbers (These cannot be generated from inside the
    ! cuda kernel)
    call random_number(x)
    call random_number(y)

    !write(*,*) x, y

    ! Convert the random numbers into graphics card memory land!
    x_d = x
    y_d = y
    pi_parts_d = pi_parts

    ! For the cuda kernel
    tBlock = dim3(256,1,1)
    grid = dim3((N/tBlock%x)+1,1,1)

    ! Start the cuda kernel
    call pi_darts<<<grid, tblock>>>(x_d, y_d, pi_parts_d, N)

    ! Transform the results into CPU Memory
    pi_parts = pi_parts_d
    write(*,*) pi_parts

    write(*,*) 'PI: ', 4.0*sum(pi_parts)/N
end program final_project

编辑代码: 更改了各个行以反映以下提到的修复:Robert Crovella。当前状态:通过cuda-memcheck显示发现错误:Program hit error 8 on CUDA API call to cudaLaunch在我的机器上。

如果有什么方法可以用来测试这个程序,请告诉我。我正在投掷飞镖,看看它们在我目前使用 CUDA 的调试方式中落在哪里。不是最理想的,但在我找到另一种方法之前必须这样做。

愿 Fortran 诸神在这黑暗的时刻怜悯我的灵魂。

4

1 回答 1

1

当我编译并运行你的程序时,我得到一个段错误。这是由于您传递给内核的最后一个参数 ( N_d):

call pi_darts<<<grid, tblock>>>(x_d, y_d, pi_parts_d, N_d)

由于N是一个标量,内核期望直接使用它,而不是作为指针。因此,当您传递一个指向设备数据 ( N_d) 的指针时,设置内核的过程会在尝试访问该值时产生一个段错误(在主机代码中!)N,它应该直接传递为:

call pi_darts<<<grid, tblock>>>(x_d, y_d, pi_parts_d, N)

当我对您发布的代码进行更改时,我会得到实际的打印输出(而不是 seg 错误),这是一个由 1 和 0 组成的数组(256 个,后跟 144 个零,总共N= 400 个值),然后是计算的 PI 值(在这种情况下恰好是 2.56 (4*256/400),因为您已经使内核基本上是一个虚拟内核)。

这行代码也可能没有做你想做的事:

grid = dim3(N/tBlock%x,1,1)

使用N= 400 和tBlock%x= 256(来自前面的代码行),计算结果为 1(即,grid最终达到(1,1,1)一个线程块)。但是您真的想启动 2 个线程块,以便覆盖数据集的整个范围(N= 400 个元素)。有很多方法可以解决这个问题,但为了简单起见,我们总是在计算中加 1:

grid = dim3((N/tBlock%x)+1,1,1)

在这种情况下,当我们启动的网格(就总线程而言)大于我们的数据集大小(512 个线程,但在本例中只有 400 个数据元素)时,通常会在内核开头附近放置一个线程检查(在这种情况下,在初始化id) 之后,为了防止越界访问,如下所示:

if (id .lt. N) then

(以及endif在内核代码的最后一个对应)这样,只有对应于实际有效数据的线程才被允许做任何工作。

通过上述更改,您的代码应该基本上可以正常工作,并且您应该能够将内核代码恢复为正确的语句并开始获得 PI 的估计值。

请注意,您可以检查 CUDA API 的错误返回代码,也可以运行代码cuda-memcheck以了解内核是否进行越界访问。然而,这些都没有帮助解决这个特殊的段错误。

于 2014-04-28T16:11:30.670 回答