c++ - CUDA 内核和 printf 的奇怪行为。

Question

我写了简单的内核代码，试图操作一维数组元素：

    #include "stdio.h"

__global__ void Loop(double *X, int CellsNum, int VarNum,const double constant1)
{

int idx = threadIdx.x+blockDim.x*blockIdx.x;
int i = (idx+1)*VarNum ;
double exp1,exp2,exp3,exp4 ;

if(idx<CellsNum-2) {

exp1=double(0.5)*(X[i+6+VarNum]+X[i+6])+X[i+10] ;
exp2=double(0.5)*(X[i+8+VarNum]+X[i+8]) ;

if(i==0) {
printf("%e %e",exp1,exp2) ;
}

exp3=X[i+11]-constant1*(exp1*exp2)/X[i+5] ;

exp4=constant1*(X[i+9]*exp1-X[i+9-VarNum]*exp2)/X[i+5] ;

X[i+12]=exp3+exp4;
}
}

extern "C" void cudacalc_(double *a, int* N1, int* N2, double* N3)
{
int Cells_Num = *N1;
int Var_Num = *N2;
double constant1 = *N3;

Loop<<<1,Cells_Num>>>(a,Cells_Num,Var_Num,constant1);

}

但如果我评论这段代码，它就不起作用：

if(i==0) {
printf("%e %e",exp1,exp2) ;
}

即使变量 i 总是大于零。比我评论这行代码在 X 数组中产生 NaN 。我正在尝试在 Tesla GPU 上运行使用 -arch sm_20 标志编译的代码。也许有人可以帮助我解决这个问题？

score 0 · Accepted Answer

这个内核有机会出现竞争条件，因为内核代码在没有同步或保护的情况下X读写。X

解决此问题的最简单方法可能是将输出语句分开以写入不同的数组：

Xo[i+12]=exp3+exp4;

cuda-memcheck可以帮助检查内核中的竞争条件。用于cuda-memcheck --help查找特定racecheck选项。

c++ - CUDA 内核和 printf 的奇怪行为。

1 回答 1

Related

Reference