0

我在 Windows 7 x64、Visual C++ 10 的 GTX 690 GPU 和 4GB RAM 上测试了以下内容:

我编写了一个函数,它接收 2 个向量并添加到第 3 个向量中。该任务在 2 个 GPU 设备上被打破。我逐渐增加了向量大小来测试 GPU 性能。所需时间相对于向量大小线性增加,直到某个点,然后突然向上跳跃。当我禁用每个 GPU 内核时,所需时间与可用内存结束保持线性关系。我附上了一张图表,显示了所需时间与分配的内存。

您可以在此处查看速度图:速度比较图!

你能告诉我有什么问题吗?

最好的,拉敏

这是我的代码:

unsigned    BenchMark( unsigned VectorSize )
{
    unsigned *      D[ 2 ][ 3 ] ;

    for ( int i = 0 ; i < 2 ; i++ )
    {
        cudaSetDevice( i ) ;

        for ( int j = 0 ; j < 3 ; j++ )
            cudaMalloc( & D[ i ][ j ] , VectorSize * sizeof( unsigned ) ) ;
    }

    unsigned    uStartTime = clock() ;

    // TEST
    for ( int i = 0 ; i < 2 ; i++ )
    {
        cudaSetDevice( i ) ;

        AddKernel<<<VectorSize/256,256>>>(
            D[ i ][ 0 ] ,
            D[ i ][ 1 ] ,
            D[ i ][ 2 ] ,
                VectorSize ) ;
    }

    cudaDeviceSynchronize() ;
    cudaSetDevice( 0 ) ;
    cudaDeviceSynchronize() ;

    unsigned    uEndTime = clock() ;

    for ( int i = 0 ; i < 2 ; i++ )
    {
        cudaSetDevice( i ) ;

        for ( int j = 0 ; j < 3 ; j++ )
            cudaFree( D[ i ][ j ] ) ;
    }

    return uEndTime - uStartTime ;
}

__global__ void AddKernel(
                    const   Npp32u *    __restrict__    pSource1 ,
                    const   Npp32u *    __restrict__    pSource2 ,
                        Npp32u *    __restrict__    pDestination ,
                        unsigned            uLength )
{
    unsigned    x = blockIdx.x * blockDim.x + threadIdx.x ;

    if ( x < uLength )
        pDestination[ x ] = pSource1[ x ] + pSource2[ x ] ; 
}
4

1 回答 1

1

我找到了答案。问题发生在 SLI 处于活动状态时,我将其禁用,现在它工作正常。

于 2013-06-15T09:40:26.167 回答