我目前正在使用具有 2 个支持 cuda 的 GPU 的服务器:Quadro 400 和 Tesla C2075。我做了一个简单的向量加法测试程序。我的问题是,虽然 Tesla C2075 GPU 应该比 Quadro 400 更强大,但完成这项工作需要更多时间。我发现 cudaMemcpy 占用了大部分执行时间,并且在功能更强大的 gpu 上运行速度较慢。这是来源:
void get_matrix(float* arr1,float* arr2,int N1,int N2)
{
int Nx,Ny;
int n_blocks,n_threads;
int dev=0; // 1
float time;
size_t size;
clock_t start,end;
cudaSetDevice(dev);
cudaDeviceProp deviceProp;
start = clock();
cudaGetDeviceProperties(&deviceProp, dev);
Nx=N1;
Ny=N2;
n_threads=256;
n_blocks=(Nx*Ny+n_threads-1)/n_threads;
size=Nx*Ny*sizeof(float);
cudaMalloc((void**)&d_A,size);
cudaMalloc((void**)&d_B,size);
cudaMemcpy(d_A, arr1, size, cudaMemcpyHostToDevice);
cudaMemcpy(d_B, arr2, size, cudaMemcpyHostToDevice);
vector_add<<<n_blocks,n_threads>>>(d_A,d_B,size);
cudaMemcpy(arr1, d_A, size, cudaMemcpyDeviceToHost);
printf("Running device %s \n",deviceProp.name);
end = clock();
time=float(end-start)/float(CLOCKS_PER_SEC);
printf("time = %e\n",time);
}
int main()
{
int const nx = 20000,ny = nx;
static float a[nx*ny],b[nx*ny];
for(int i=0;i<nx;i++)
{
for(int j=0;j<ny;j++)
{
a[j+ny*i]=j+10*i;
b[j+ny*i]=-(j+10*i);
}
}
get_matrix(a,b,nx,ny);
return 0;
}
输出是:
Running device Quadro 400
time = 1.100000e-01
Running device Tesla C2075
time = 1.050000e+00
我的问题是:
- 我应该根据要使用的 GPU 修改代码吗?
- 代码中指定的块数、每个块的线程数与 GPU 上可用的多处理器数、每个多处理器的内核数之间是否存在任何联系?
我正在运行 Linux Open Suse 11.2。源代码使用 nvcc 编译器(4.2 版)编译。
谢谢你的帮助!