cuda - cuda：cpu和gpu之间的不同答案减少

Question

我得到了这个非常奇怪的错误。我使用推力减少对矩阵中的所有元素求和。它对大多数数据运行良好，但在一组数据上出错了。

代码：

  lbfgsfloatval_t sum(const DeviceVector& A){
    thrust::device_ptr<lbfgsfloatval_t> ptr(A.getPtr());
    thrust::device_vector<double> A_p(ptr, ptr + A.rows()*A.cols());
    lbfgsfloatval_t sums = 0.0;

    // reduce on host
    for(int i = 0; i < A.rows()*A.cols();i++)
        sums += A_p[i];
    // reduce on device
    lbfgsfloatval_t res = thrust::reduce(A_p.begin(), A_p.end());
    cout << "cpu: " << sums << endl; 
    cout << "gpu: " << res  << endl;  
    return res;
 }

注意第二组出错了。

输出：

cpu: -568.691
gpu: -568.691

cpu: 3.4972e-14
gpu: 1.40998e-14

cpu: 0.234375
gpu: 0.234375

我也尝试不构建thrust::device_vector，而是使用原始指针。相同的输出。我也试过cublas dot product。相同的输出。

我用matlab确认上面的cpu结果是正确的。

发生了什么？它是GPU上的下溢吗？谢谢！

score 3 · Accepted Answer

我只能推测可能出了什么问题，但我认为这是一个下溢（或者具体来说，CPU 和 GPU 处理 IEEE-754 非规范化数字的方式不同）

http://en.wikipedia.org/wiki/Denormal_number

基本上，CPU 根据 IEEE-754 标准处理它们，尽管效率很低。

另一方面，GPU 通常将它们等同于 0。我不知道是否有 CUDA 方法可以强制 CPU 也出于开发目的刷新非规范化数字（我主要使用 OpenCL），但 C/C++ 方法通常是

_MM_SET_FLUSH_ZERO_MODE(_MM_FLUSH_ZERO_ON);

或者，在 gcc 中，使用-ffast-math.

检查这个 SO 问题：为什么将 0.1f 更改为 0 会使性能降低 10 倍？

cuda - cuda：cpu和gpu之间的不同答案减少

1 回答 1

Related

Reference