0

我想用 2 个非方阵 (2000,100), (100,100) 进行矩阵乘法,我尝试像 Nvidia 示例中那样使用块子矩阵,但结果错误,我在这里找到了解决方法。 CUDA 中的非方阵乘法 它使用零填充,所以我将块大小更改为 16,但这是一个错误的工作组大小,我使用 pyopencl 并且不能使用 Blas 等等。

4

1 回答 1

0

迄今为止,我在 AFDS 2011 上看到的关于该主题的最佳演示之一。

PDF 演示文稿。

视频流)

视频(下载)

他们的矩阵很大——Linpack 大小——而且不是正方形的。您可以将其主 GPU 内核的块大小从 1024 缩小到更小的值(32,64,128?),以更好地解决您的问题,甚至可能适合您硬件上的 LDS。演示者使用 CPU 来处理 GPU 未触及的不规则尺寸区域。

于 2012-06-30T16:06:31.170 回答