1

我会理解为什么结果是无穷大的。我写了下面的代码,我总是收到 inf 作为结果。我的代码有任何精度问题吗?

#include <stdio.h>
#include <stdlib.h>

#include "cuda.h"
#include "curand_kernel.h"

#define NDIM 30
#define NPAR 5

#define DIMPAR NDIM*NPAR

__device__ double uniform(int index){
    return (double) 0.767341;
}


__global__ void iteracao(double *pos){

    int thread = threadIdx.x + blockDim.x * blockIdx.x;
    double tvel;
    int i = 0;

    double l, r, t;

    if(thread < DIMPAR){
        do{
            t = (double) uniform(thread);
            l = (double) 2.05 * t * ( pos[thread] );
            r = (double) 2.05 * t * ( pos[thread] );
            tvel = (double) l+t+r;
            pos[thread] =  tvel;
            i++;
        }while(i < 10000);
    }

}


int main(int argc, char *argv[])
{

    double *d_pos,    *h_pos;


    h_pos = (double *) malloc(sizeof( double ) * DIMPAR);


    cudaMalloc((void**)&d_pos, DIMPAR   * sizeof( double ));


    int i, j, k, numthreadsperblock, numblocks;

    numthreadsperblock = 512;
    numblocks = (DIMPAR / numthreadsperblock) + ((DIMPAR % numthreadsperblock)?1:0);
    //
    printf("numthreadsperblock: %i;; numblocks:%i\n", numthreadsperblock, numblocks);

    cudaMemset(d_pos,  0.767341, DIMPAR   * sizeof( double ));
    iteracao<<<numblocks,numthreadsperblock>>>(d_pos);
    cudaMemcpy(h_pos, d_pos, DIMPAR * sizeof( double ), cudaMemcpyDeviceToHost);

    printf("\n");
    for(i = 0; i < NPAR; i++){
        for(j = i*NDIM, k = j; j < (k+30); j++){
            printf("%f,", h_pos[j]);
        }
        printf("***\n\n");
    }

    system("PAUSE");
    return 0;
}

输出总是这样的:

numthreadsperblock:512;;数字块:1

inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf, inf,inf,inf,inf,inf, *

inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf, inf,inf,inf,inf,inf, *

inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf, inf,inf,inf,inf,inf, *

inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf, inf,inf,inf,inf,inf, *

inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf,inf, inf,inf,inf,inf,inf, *

4

2 回答 2

2

你有2个问题。第一个是@Anycorn 在评论中描述的。 cudaMemset,就像memset期望一个字节值并设置字节位置一样。您不能使用它来初始化float值。

第二个是你的内核有一个循环在每个pos数组元素上运行 10000 次。实际上,您正在寻找复杂表达式的 10000 阶乘。由于该表达式始终是肯定的,因此您的答案会爆炸。您的内核很可能没有正确编写。它没有做你想让它做的事情。即使您解决了第一个问题并正确初始化pos为零,您的计算仍然会失败。

您正在执行的算术是:

pos[idx] =  0.767341 + (3.1460981 * pos[idx]);

对于每个idx,您执行上述操作 10000 次。即使初始pos[idx]值为零,在循环的第二次迭代中,它也会开始以几何方式起飞。

于 2013-09-16T13:54:56.497 回答
1

d_pos以错误的方式初始化。cudaMemset()只能逐字节设置内存。有关更多详细信息,请参阅cudaMemset() 文档

要按照您的意图初始化数组,您可以使用 Thrust 作为一种快速方式。

thrust::fill(
    thrust::device_pointer_cast(d_pos),
    thrust::device_pointer_cast(d_pos) + DIMPAR,
    0.767341);
于 2013-09-16T13:52:37.577 回答