我正在使用 MATLAB 编写仿真,其中使用了 CUDA 加速。
假设我们有向量x和,y矩阵和标量A变量,,,,,。dtdxabc
我发现通过在运行迭代和内置函数之前放入 , ,可以显着加速x迭代y。AgpuArray()
但是,当我尝试将dt, dx, a, b,之类的变量c放入 中gpuArray()时,程序会显着减慢 30% 以上。(时间从 7 秒增加到 11 秒)。
为什么将所有变量放入gpuArray()?
x(简短的评论,这些标量与, y, ,相乘A,并且从未在单独的迭代过程中使用过。)