所以我想看看我是否可以通过使用 GPU 通过同时求解一堆来求解一个小的超定方程组来获得一些显着的加速。我当前的算法涉及使用 CULA Dense 库中的 LU 分解函数,该函数还必须在 GPU 和 CPU 之间来回切换以初始化和运行 CULA 函数。我希望能够从我的 CUDA 内核调用 CULA 函数,这样我就不必跳回 CPU 并将数据复制回来。这也将允许我创建处理不同数据集的多个线程,以同时解决多个系统。我的问题是我可以从设备函数中调用 CULA 函数吗?我知道 CUBLAS 和其他一些 CUDA 库可以做到这一点。
谢谢!