c++ - 访问指向 GPU 上其他向量的指针向量

Question

所以这是我提出的一个问题的后续，目前在一些代码的 CPU 版本中，我有很多看起来如下所示的东西：

for(int i =0;i<N;i++){

    dgemm(A[i], B[i],C[i], Size[i][0], Size[i][1], Size[i][2], Size[i][3], 'N','T');

}

其中 A[i] 将是某个大小的二维矩阵。

我希望能够在使用 CULA 的 GPU 上执行此操作（我不只是在做乘法，所以我需要 CULA 中的线性代数运算），例如：

 for(int i =0;i<N;i++){
        status = culaDeviceDgemm('T', 'N', Size[i][0], Size[i][0], Size[i][0], alpha, GlobalMat_d[i], Size[i][0], NG_d[i], Size[i][0], beta, GG_d[i], Size[i][0]);
}

但是我想在程序开始时将我的 B 提前存储在 GPU 上，因为它们不会改变，所以我需要一个向量，其中包含指向构成我的 B 的向量集的指针。

我目前有以下编译代码：

double **GlobalFVecs_d;
double **GlobalFPVecs_d;

extern "C" void copyFNFVecs_(double **FNFVecs, int numpulsars, int numcoeff){


  cudaError_t err;
  GlobalFPVecs_d = (double **)malloc(numpulsars * sizeof(double*));
 err = cudaMalloc( (void ***)&GlobalFVecs_d, numpulsars*sizeof(double*) );
 checkCudaError(err);

    for(int i =0; i < numpulsars;i++){
         err = cudaMalloc( (void **) &(GlobalFPVecs_d[i]), numcoeff*numcoeff*sizeof(double) );
         checkCudaError(err);    
         err = cudaMemcpy( GlobalFPVecs_d[i], FNFVecs[i], sizeof(double)*numcoeff*numcoeff, cudaMemcpyHostToDevice );
         checkCudaError(err);   
        }

         err = cudaMemcpy( GlobalFVecs_d, GlobalFPVecs_d, sizeof(double*)*numpulsars, cudaMemcpyHostToDevice );
         checkCudaError(err);

}

但如果我现在尝试通过以下方式访问它：

 dim3 dimBlock(BLOCK_SIZE, BLOCK_SIZE);
 dim3 dimGrid;//((G + dimBlock.x - 1) / dimBlock.x,(N + dimBlock.y - 1) / dimBlock.y);
 dimGrid.x=(numcoeff + dimBlock.x - 1)/dimBlock.x;
 dimGrid.y = (numcoeff + dimBlock.y - 1)/dimBlock.y;

 for(int i =0; i < numpulsars; i++){
    CopyPPFNF<<<dimGrid, dimBlock>>>(PPFMVec_d, GlobalFVecs_d[i], numpulsars, numcoeff, i);
 }

它在这里出现故障，这不是如何获取数据吗？

我正在调用的内核函数只是：

__global__ void CopyPPFNF(double *FNF_d, double *PPFNF_d, int numpulsars, int numcoeff, int thispulsar) {

    // Each thread computes one element of C
    // by accumulating results into Cvalue




    int row = blockIdx.y * blockDim.y + threadIdx.y;
    int col = blockIdx.x * blockDim.x + threadIdx.x;

    int subrow=row-thispulsar*numcoeff;
    int subcol=row-thispulsar*numcoeff;

     __syncthreads();
    if(row >= (thispulsar+1)*numcoeff || col >= (thispulsar+1)*numcoeff) return;
    if(row < thispulsar*numcoeff || col < thispulsar*numcoeff) return;


    FNF_d[row * numpulsars*numcoeff + col] += PPFNF_d[subrow*numcoeff+subcol];

}

我做错了什么？最后请注意，我还想作为第一个示例，在每个 GlobalFVecs_d[i] 上调用 cula 函数，但现在甚至这都行不通。

你认为这是最好的方法吗？如果可以只传递 CULA 函数的一个大连续向量的切片，我可以这样做，但我不知道它是否支持。

干杯林德利

score 0 · Accepted Answer

改变这个：

CopyPPFNF<<<dimGrid, dimBlock>>>(PPFMVec_d, GlobalFVecs_d[i], numpulsars, numcoeff, i);

对此：

CopyPPFNF<<<dimGrid, dimBlock>>>(PPFMVec_d, GlobalFPVecs_d[i], numpulsars, numcoeff, i);

我相信它会奏效。

您处理指针的方法大多是正确的。但是，当您放入GlobalFVecs_d[i]参数列表时，您将强制内核设置代码（在主机上运行）采用GlobalFVecs_d（设备指针，使用创建cudaMalloc），将适当缩放的指针值添加到i指针值，然后取消引用结果指针检索要作为参数传递给内核的值。但是我们不允许在主机代码中取消引用设备指针。

但是，由于您的方法大部分是正确的，因此您有一个方便的并行数组，其中包含驻留在主机上的相同指针。GlobalFPVecs_d这个数组（

这是一个有趣的错误，因为通常内核不会出现段错误（尽管它们可能会抛出错误），因此内核调用行上的段错误是不寻常的。但在这种情况下，段错误发生在内核设置代码中，而不是内核本身。

c++ - 访问指向 GPU 上其他向量的指针向量

1 回答 1

Related

Reference