我有一个关于在 ArrayFire for Python 中使用多个主机线程的新手问题。我们目前有一个高度并行的纯 CPU 代码,使用 Open MPI 和 mpi4py 并行化。每个 CPU 线程执行大型矩阵乘法,通常多个线程同时乘法。我们希望通过使用 ArrayFire 在单个 GPU 上执行矩阵乘法来提高性能。
我试图弄清楚我们是否可以让多个 CPU 主机线程将矩阵乘法作业发送到 GPU,并让 GPU 同时执行这些乘法运算。或者,每个 CPU 主机线程是否必须等到 GPU 空闲才能向 GPU 发送乘法作业?
我很难找到答案,因为我不精通 GPU 计算的语言。我的印象是某些 GPU 支持并发内核执行,但我无法确定我们的 GPU(Radeon Vega 10)是否支持。
任何有关如何使用 ArrayFire for Python 执行此类操作的一般提示或资源将不胜感激。