我正在研究一种算法,该算法必须在一定程度上独立地对大量小数组进行少量操作。
给出一个想法:
- 对长度通常为 0.5k-1k 元素的数组进行 1k 次排序。
- 1k 对 10-20 级矩阵的 LU 求解。
一切都在浮动。
然后,这个问题有一些横向性:上述操作必须在 10k 数组上独立进行。
此外,不需要存储中间结果:例如,我不需要保留已排序的数组,只需保留最小的 $m$ 元素的总和。
整个事情已经用c ++编程并运行了。我的问题是:您是否希望这样的问题能够通过 CUDA 获得显着的加速(因子 2 或更多)?