我在这里粘贴一些代码供大家查看。
__global__ void Integrate(double a, double b) {
__shared__ double extrapol[16];
__shared__ double result[32];
__shared__ double h;
__shared__ double err;
__shared__ double x;
__shared__ int n;
if (threadIdx.x == 0) {
h = b - a;
err = 1.0;
if (0.0 == a)
extrapol[0] = 0.5 * h * myfunc(b);
else
extrapol[0] = 0.5 * h * (myfunc(a) + myfunc(b));
n = 1;
}
for (int i = 1; i < 16; i++) {
if (threadIdx.x == 0)
x = a + h * 0.5;
__syncthreads();
if (err <= EPSILON)
break;
Trapezoid(result, x, h, n);
if (threadIdx.x == 0) {
result[0] = (extrapol[0] + h * result[0]) * 0.5;
double power = 1.0;
for (int k = 0; k < i; k++) {
power *= 4.0;
double sum = (power * result[0] - extrapol[k]) / (power - 1.0);
extrapol[k] = result[0];
result[0] = sum;
}
err = fabs(result[0] - extrapol[i - 1]);
extrapol[i] = result[0];
n *= 2;
h *= 0.5;
}
}
}
本质上它是一个自适应数字积分器(Romberg)。此全局函数中使用的设备函数有:
__device__ void Trapezoid(double *sdata, double x, double h, int n) {
int nIdx = threadIdx.x + blockIdx.x * blockDim.x;
sdata[nIdx] = 0;
while (nIdx < n) {
sdata[threadIdx.x] += myfunc(x + (nIdx * h));
nIdx += 32;
}
Sum(sdata, threadIdx.x);
}
平行归约功能:
__device__ void Sum(volatile double *sdata, int tId) {
if (tId < 16) {
sdata[tId] += sdata[tId + 16];
sdata[tId] += sdata[tId + 8];
sdata[tId] += sdata[tId + 4];
sdata[tId] += sdata[tId + 2];
sdata[tId] += sdata[tId + 1];
}
}
最后,我试图集成的功能是(模拟简单功能)如下:
__device__ double myfunc(double x) {
return 1 / x;
}
代码执行良好,得到了预期的积分。内核按以下方式执行(暂时)
Integrate <<< 1, 32 >>>(1, 2);
问题:
当我使用 nvidia 视觉分析器检查此功能的寄存器使用情况时。结果是每个线程有 52 个寄存器。我不明白为什么?我在这段代码中的大部分变量都是共享变量。你能告诉我如何找出我的代码的哪些部分正在使用寄存器吗?
我怎样才能减少它们?我可以用这段代码做任何优化吗?
硬件
我正在使用 fermi 设备 Geforce GTX 470,计算能力 2.0
谢谢,