7

我想知道是否有更有效的方式来编写 a = a + b + c?

 thrust::transform(b.begin(), b.end(), c.begin(), b.begin(), thrust::plus<int>());
 thrust::transform(a.begin(), a.end(), b.begin(), a.begin(), thrust::plus<int>());

这可行,但有没有办法只使用一行代码来获得相同的效果?我查看了示例中的 saxpy 实现,但是它使用了 2 个向量和一个常量值;


这更有效吗?

struct arbitrary_functor
{
    template <typename Tuple>
    __host__ __device__
    void operator()(Tuple t)
    {
        // D[i] = A[i] + B[i] + C[i];
        thrust::get<3>(t) = thrust::get<0>(t) + thrust::get<1>(t) + thrust::get<2>(t);
    }
};


int main(){

     // allocate storage
    thrust::host_vector<int> A;
    thrust::host_vector<int> B;
    thrust::host_vector<int> C;

    // initialize input vectors
    A.push_back(10);
    B.push_back(10);
    C.push_back(10);

    // apply the transformation
    thrust::for_each(thrust::make_zip_iterator(thrust::make_tuple(A.begin(), B.begin(), C.begin(), A.begin())),
                     thrust::make_zip_iterator(thrust::make_tuple(A.end(),   B.end(),   C.end(),   A.end())),
                     arbitrary_functor());

    // print the output
       std::cout << A[0] << std::endl;

    return 0;
}
4

1 回答 1

8

a = a + b + c算术强度低(每 4 次内存操作只有两次算术运算),因此计算将受到内存带宽的限制。为了比较您提出的解决方案的效率,我们需要测量它们的带宽需求。

第一个解决方案中的每次调用都transform需要两次加载和一次存储plustransform因此,我们可以将每次调用的成本建模为3N,其中N是向量ab和的大小c。由于有两次调用transform,因此该解决方案的成本为6N

我们可以用相同的方式对第二种解决方案的成本进行建模。每次调用都arbitrary_functor需要三个加载和一个存储。因此,此解决方案的成本模型将是4N,这意味着该for_each解决方案应该比调用transform两次更有效。当N很大时,第二个解决方案应该6N/4N = 1.5x比第一个解决方案执行得更快。

当然,您总是可以以类似的方式组合zip_iteratorwithtransform以避免两次单独调用transform.

于 2011-09-25T03:59:45.040 回答