我想用 2 个非方阵 (2000,100), (100,100) 进行矩阵乘法,我尝试像 Nvidia 示例中那样使用块子矩阵,但结果错误,我在这里找到了解决方法。 CUDA 中的非方阵乘法 它使用零填充,所以我将块大小更改为 16,但这是一个错误的工作组大小,我使用 pyopencl 并且不能使用 Blas 等等。
问问题
1260 次
我想用 2 个非方阵 (2000,100), (100,100) 进行矩阵乘法,我尝试像 Nvidia 示例中那样使用块子矩阵,但结果错误,我在这里找到了解决方法。 CUDA 中的非方阵乘法 它使用零填充,所以我将块大小更改为 16,但这是一个错误的工作组大小,我使用 pyopencl 并且不能使用 Blas 等等。