cuda - Tesla C2075 上的 cudaMemcpy 太慢了

Question

我目前正在使用具有 2 个支持 cuda 的 GPU 的服务器：Quadro 400 和 Tesla C2075。我做了一个简单的向量加法测试程序。我的问题是，虽然 Tesla C2075 GPU 应该比 Quadro 400 更强大，但完成这项工作需要更多时间。我发现 cudaMemcpy 占用了大部分执行时间，并且在功能更强大的 gpu 上运行速度较慢。这是来源：

void get_matrix(float* arr1,float* arr2,int N1,int N2)
{
  int Nx,Ny;
  int n_blocks,n_threads;
  int dev=0; // 1
  float time;
  size_t size;
  clock_t start,end;
  cudaSetDevice(dev);
  cudaDeviceProp deviceProp;
  start = clock();
  cudaGetDeviceProperties(&deviceProp, dev);
  Nx=N1;
  Ny=N2;
  n_threads=256;
  n_blocks=(Nx*Ny+n_threads-1)/n_threads;
  size=Nx*Ny*sizeof(float);
  cudaMalloc((void**)&d_A,size);
  cudaMalloc((void**)&d_B,size);
  cudaMemcpy(d_A, arr1, size, cudaMemcpyHostToDevice);
  cudaMemcpy(d_B, arr2, size, cudaMemcpyHostToDevice);
  vector_add<<<n_blocks,n_threads>>>(d_A,d_B,size);
  cudaMemcpy(arr1, d_A, size, cudaMemcpyDeviceToHost);
  printf("Running device %s \n",deviceProp.name);
  end = clock();
  time=float(end-start)/float(CLOCKS_PER_SEC);
  printf("time = %e\n",time);
}

int main()
{
int const nx = 20000,ny = nx;
static float a[nx*ny],b[nx*ny];
for(int i=0;i<nx;i++)
  {
  for(int j=0;j<ny;j++)
  {
    a[j+ny*i]=j+10*i;
    b[j+ny*i]=-(j+10*i);
  }
}
get_matrix(a,b,nx,ny);
return 0;
}

输出是：

Running device Quadro 400
time = 1.100000e-01

Running device Tesla C2075
time = 1.050000e+00

我的问题是：

我应该根据要使用的 GPU 修改代码吗？
代码中指定的块数、每个块的线程数与 GPU 上可用的多处理器数、每个多处理器的内核数之间是否存在任何联系？

我正在运行 Linux Open Suse 11.2。源代码使用 nvcc 编译器（4.2 版）编译。

谢谢你的帮助！

score 1 · Accepted Answer

尝试调用get_matrix(a,b,nx,ny)两次并获取第二次计时结果。第一次调用 CUDA API 将创建 cuda 上下文。往往需要很长时间。

有关如何确定块大小和网格大小的信息，请参阅CUDA C 最佳实践指南中的此部分。

cuda - Tesla C2075 上的 cudaMemcpy 太慢了

1 回答 1

Related

Reference