我正在尝试计算 450 个向量之间的互相关,每个向量的大小为 20000。在 CPU 上执行此操作时,我将数据存储在 2D 矩阵中,行数 = 20000,列数 = 450。
void computeFF_cpu( float * nSamples, float * nFeatures, float ** data, float ** corr
#pragma omp parallel for shared(corr, data)
for( int i=0 ; i<nFeatures ; i++ )
for( int j=0 ; j<nFeatures ; j++ )
corr[i][j] = pearsonCorr( data[i], data[j], nSamples );
int main()
**for( int z=0 ; z<1000 ; z++ )**
computeFF_cpu( 20000, 450, data, corr );
这完美地工作。现在我尝试用 GPU 解决这个问题。我已将 2D 数据矩阵转换为 GPU 内存中的行主要格式,并且我已验证复制是否正确。
这些向量以行主要格式存储为大小为 900000(即 450*20000)的矩阵。组织如下
<---f1的nSamples---><---f2的nSamples ---><---f3的nSamples--->......
我计算互相关的 cuda 代码如下
// kernel for computation of ff
__global__ void computeFFCorr(int nSamples, int nFeatures, float * dev_data, float * dev_ff)
int tid = blockIdx.x + blockIdx.y*gridDim.x;
if( blockIdx.x == blockIdx.y )
dev_ff[tid] = 1.0;
else if( tid < nFeatures*nFeatures )
dev_ff[tid] = pearsonCorrelationScore_gpu( dev_data+(blockIdx.x*nSamples), dev_data+(blockIdx.y*nSamples), nSamples );
// Call kernel for computation of ff
**for( int z=0 ; z<1000 ; z++ )**
computeFFCorr<<<dim3(nFeatures,nFeatures),1>>>(nSamples, nFeatures, dev_data, corr);
//nSamples = 20000
// nFeatures = 450
// dev_data -> data matrix in row major form
// corr -> result matrix also stored in row major