我正在进行一项比较研究,其中我必须对算法的串行和并行版本进行比较(NSGA-II 算法是精确的下载链接)。NSGA-II 是一种启发式优化方法,因此取决于生成的初始随机种群。如果使用 CPU 和 GPU 生成的初始种群不同,那么我无法进行公正的加速研究。
我拥有一块计算能力为 1.3 的 NVIDIA-TESLA-C1060 卡。根据这个答案和这个 NVIDIA 文档,我们不能指望 sm_13 设备总是产生符合 IEEE-754 的浮点(单精度)值。换句话说,这意味着在我当前的设备上,我无法对其串行对应的 CUDA 程序进行公正的加速研究。
我的问题是:改用 Fermi 架构能解决问题吗?