给定矩阵A 1 ,...,A n和B 1 ,...,B n存储为gpuArray
,我想计算矩阵C i =A i *B i。
所有A i的大小相同,所有B i的大小相同(可能不同)。
假设n非常大并且矩阵的大小相对较小,我如何在 GPU 上快速执行此操作?是否可以避免使用 CUDA?
如果您有 MATLAB R2013b,则可以使用新的 gpuArraypagefun
函数。
如果A
和B
属于 类gpuArray
,则操作C = A*B
将在 GPU 上执行,您无需执行任何其他操作。您不需要编写任何 CUDA。结果C
也将是gpuArray
,您可以使用 将其带回D
本地工作区中的普通数组D = gather(C)
。