c - 点积 - SSE2 与 BLAS

Question

对于计算向量 x 与大量向量 y_i 的点积，我最好的选择是什么，其中 x 和 y_i 的长度为 10k 左右。

我只是在这里寻找一般指导，所以任何建议都会很有用。
是的，我确实需要表演。谢谢你的光。

score 4 · Accepted Answer

我认为 GPU 是专门为快速执行此类操作而设计的（除其他外）。因此，您可能可以使用 DirectX 或 OpenGL 库来执行矢量操作。D3DXVec2Dot这也将节省您的 CPU 时间。

score 1 · Accepted Answer

优化 BLAS 例程的替代方案：

score 0 · Accepted Answer

0

我使用 GotoBLAS。这是高性能内核例程。比 MKL 和 BLAS 好很多倍。

于 2009-10-03T10:34:18.077 回答

score 0 · Accepted Answer

对 SSE2 解决方案进行手工编码并不是很困难，并且会比纯 C 例程带来很好的加速。这将带来多少 BLAS 例程必须由您确定。

最大的加速是通过将数据结构化为一种格式来获得的，这样您就可以利用数据并行性和对齐。

score 0 · Accepted Answer

下面提供了使用 SSE 的 BLAS 级别 1（向量运算）例程。

如果您有 nVidia 显卡，您可以获得 cuBLAS，它将在显卡上执行操作。

适用于 ATI (AMD) 显卡

5 回答 5