c++ - CUDA程序比CPU程序慢，但内核更快？

Question

问题的标题可能听起来很混乱，但实际上.. 它是！

我有一个执行这一行的程序

new_matrix = matrix1 + matrix2 + CPU_GIVE_ME_A_MATRIX();

“+”运算符被重载，我创建了一个简单的矩阵类来简化代码阅读。

    myMatrixClass operator+ (const myMatrixClass& mt)
{

    myMatrixClass result(this->rows, this->columns);
    // Sum each couple of values
    for(int i=0; i<rows; i++)
    {
        for(int j=0; j<columns; j++)
            result.values[i*columns+j] = this->values[i*columns+j] + mt.values[i*columns+j];
    }
    return result;
}

我有另一个版本的程序，它用 CUDA 计算第三项

new_matrix = matrix1 + matrix2 + GPU_GIVE_ME_A_MATRIX();

在分析了一下之后，我发现：

整个 GPU_GIVE_ME_A_MATRIX() 函数比 CPU_GIVE_ME_A_MATRIX() 函数更快（包括内存传输），所以 CUDA 完成了它的工作。

但是 new_matrix = matrix1 + matrix2 + CPU_GIVE_ME_A_MATRIX(); 比 new_matrix = matrix1 + matrix2 + GPU_GIVE_ME_A_MATRIX() 快；

什么可能导致这种奇怪的行为？CPU缓存什么？

由于这条线被执行了几次（渲染需要），整个CUDA程序比CPU版本慢，但正如我所说的GPU_GIVE_ME_A_MATRIX（）函数比CPU_GIVE_ME_A_FUNCTION（）快

score 1 · Accepted Answer

CPU 版本将生成的矩阵放入 CPU 缓存中（或者至少可以），而 GPU 版本的结果必须从系统内存中读取。虽然在大多数情况下这是需要的（您不想在每个设备到主机传输时污染 CPU 缓存），但这意味着 CPU 读取此数据（至少是第一次）将比计算数据的主机慢-边。

通常建议尽可能长时间地保留设备上的内存，并尽可能少地传输回来。在这种情况下，听起来 GPU 没有得到足够的工作使其值得。也许比计算单个矩阵更大的任务可以交给 GPU？

c++ - CUDA程序比CPU程序慢，但内核更快？

1 回答 1

Related

Reference