1

我正在将一些代码移植到 GPU 上,并且主要实现了它,除了我的算法需要执行列规范化步骤(或者它应该,算法在没有它的情况下工作,但为了算法稳定性而进行规范化会更好)。

我正在尝试考虑实现这一点的最佳方法。我已经有一个可以减少的内核,所以我可以重用它来获得列总和。列的数量可以少到几十列,几千个元素,多到几千列,每列几千个元素。如果我在每一列上迭代地调用我的归约内核,我认为性能会很差,所以我试图想出更好的方法,并希望其他人已经以更优化的方式解决了这个问题。

4

1 回答 1

2

You may want to look into the open-source CUDA Data-Parallel Primitives Library (CUDPP) from the team at UC Davis/Nvidia. It includes a fast segmented scan as well as parallel reductions.

于 2012-08-29T23:30:26.357 回答