我在 Windows 7 x64、Visual C++ 10 的 GTX 690 GPU 和 4GB RAM 上测试了以下内容:
我编写了一个函数,它接收 2 个向量并添加到第 3 个向量中。该任务在 2 个 GPU 设备上被打破。我逐渐增加了向量大小来测试 GPU 性能。所需时间相对于向量大小线性增加,直到某个点,然后突然向上跳跃。当我禁用每个 GPU 内核时,所需时间与可用内存结束保持线性关系。我附上了一张图表,显示了所需时间与分配的内存。
您可以在此处查看速度图:速度比较图!
你能告诉我有什么问题吗?
最好的,拉敏
这是我的代码:
unsigned BenchMark( unsigned VectorSize )
{
unsigned * D[ 2 ][ 3 ] ;
for ( int i = 0 ; i < 2 ; i++ )
{
cudaSetDevice( i ) ;
for ( int j = 0 ; j < 3 ; j++ )
cudaMalloc( & D[ i ][ j ] , VectorSize * sizeof( unsigned ) ) ;
}
unsigned uStartTime = clock() ;
// TEST
for ( int i = 0 ; i < 2 ; i++ )
{
cudaSetDevice( i ) ;
AddKernel<<<VectorSize/256,256>>>(
D[ i ][ 0 ] ,
D[ i ][ 1 ] ,
D[ i ][ 2 ] ,
VectorSize ) ;
}
cudaDeviceSynchronize() ;
cudaSetDevice( 0 ) ;
cudaDeviceSynchronize() ;
unsigned uEndTime = clock() ;
for ( int i = 0 ; i < 2 ; i++ )
{
cudaSetDevice( i ) ;
for ( int j = 0 ; j < 3 ; j++ )
cudaFree( D[ i ][ j ] ) ;
}
return uEndTime - uStartTime ;
}
__global__ void AddKernel(
const Npp32u * __restrict__ pSource1 ,
const Npp32u * __restrict__ pSource2 ,
Npp32u * __restrict__ pDestination ,
unsigned uLength )
{
unsigned x = blockIdx.x * blockDim.x + threadIdx.x ;
if ( x < uLength )
pDestination[ x ] = pSource1[ x ] + pSource2[ x ] ;
}