cuda - 低内存复制吞吐量主机到设备

Question

我有一个向量向量vector<vector<double>> data。我只想复制该“二维矩阵”中包含的信息，因为 CUDA 中没有向量。所以我使用的第一种方法是

vector<vector<double>> *values;
vector<vector<double>>::iterator it;
double *d_values;
double *dst;

checkCudaErr(
    cudaMalloc((void**)&d_values, sizeof(double)*M*N)
);

dst = d_values;
for (it = values->begin(); it != values->end(); ++it){
    double *src = &((*it)[0]);
    size_t s = it->size();
    checkCudaErr(
        cudaMemcpy(dst, src, sizeof(double)*s, cudaMemcpyHostToDevice)
        );
    dst += s;
}

在使用 NVVP 进行分析后，我得到了非常低的 cudaMempcpy 吞吐量。我认为这是逻辑，因为我在每个 cudaMemcpy 调用中发送了非常少量的字节。所以我决定改变一点代码来尝试改进这一点，所以第二种方法是

double *h_values = new double[M*N];

dst = h_values;
for (it = values->begin(); it != values->end(); ++it){
    double *src = &((*it)[0]);
    size_t s = it->size();
    memcpy(dst, src, sizeof(double)*s);
    dst += s;
}

checkCudaErr(
    cudaMemcpy(d_values, h_values, sizeof(double)*M*N, cudaMemcpyHostToDevice)
);

分析后的结果仍然是低 memcpy 吞吐量。所以，我的问题是，如何改进从主机到设备的副本？

我正在使用 Quadro K4000。第一种情况下我得到 25 MB/s，第二种情况下大约 2 GB/s。M = 5 和 N = 2000000。我必须说 M 的值是一个普通值，但有时它可以达到 50。

score 4 · Accepted Answer

吞吐量缓慢的一个原因可能是您为双矩阵分配了新的。该内存没有页面锁定。您可以使用系统功能（不知道您使用哪个系统）或提供此功能的 cuda 功能。会的cudaMallocHost。

只需删除您的=new double[M*N]并设置您h_values的cudaMallocHost(&h_values, sizeof(double)*M*N)（当然不要删除它，而是释放它（使用cudaFreeHost））。

顺便提一句。理论最高速度为 8 GB/s（PCI 2.0 x 16 通道），实际上您将保持在它以下（大约 6 GB/s）。

cuda - 低内存复制吞吐量主机到设备

1 回答 1

Related

Reference