-1

问题的标题可能听起来很混乱,但实际上.. 它是!

我有一个执行这一行的程序

new_matrix = matrix1 + matrix2 + CPU_GIVE_ME_A_MATRIX();

“+”运算符被重载,我创建了一个简单的矩阵类来简化代码阅读。

    myMatrixClass operator+ (const myMatrixClass& mt)
{

    myMatrixClass result(this->rows, this->columns);
    // Sum each couple of values
    for(int i=0; i<rows; i++)
    {
        for(int j=0; j<columns; j++)
            result.values[i*columns+j] = this->values[i*columns+j] + mt.values[i*columns+j];
    }
    return result;
}

我有另一个版本的程序,它用 CUDA 计算第三项

new_matrix = matrix1 + matrix2 + GPU_GIVE_ME_A_MATRIX();

在分析了一下之后,我发现:

整个 GPU_GIVE_ME_A_MATRIX() 函数比 CPU_GIVE_ME_A_MATRIX() 函数更快(包括内存传输),所以 CUDA 完成了它的工作。

但是 new_matrix = matrix1 + matrix2 + CPU_GIVE_ME_A_MATRIX(); 比 new_matrix = matrix1 + matrix2 + GPU_GIVE_ME_A_MATRIX() 快;

什么可能导致这种奇怪的行为?CPU缓存什么?

由于这条线被执行了几次(渲染需要),整个CUDA程序比CPU版本慢,但正如我所说的GPU_GIVE_ME_A_MATRIX()函数比CPU_GIVE_ME_A_FUNCTION()快

4

1 回答 1

1

CPU 版本将生成的矩阵放入 CPU 缓存中(或者至少可以),而 GPU 版本的结果必须从系统内存中读取。虽然在大多数情况下这是需要的(您不想在每个设备到主机传输时污染 CPU 缓存),但这意味着 CPU 读取此数据(至少是第一次)将比计算数据的主机慢-边。

通常建议尽可能长时间地保留设备上的内存,并尽可能少地传输回来。在这种情况下,听起来 GPU 没有得到足够的工作使其值得。也许比计算单个矩阵更大的任务可以交给 GPU?

于 2012-04-14T21:47:49.937 回答