我有一组循环运行的操作。
for(int i = 0; i < row; i++)
{
sum += arr1[0] - arr2[0]
sum += arr1[0] - arr2[0]
sum += arr1[0] - arr2[0]
sum += arr1[0] - arr2[0]
arr1 += offset1;
arr2 += offset2;
}
现在我正在尝试对这样的操作进行矢量化
for(int i = 0; i < row; i++)
{
convert_int4(vload4(0, arr1) - vload4(0, arr2));
arr1 += offset1;
arr2 += offset2;
}
但是如何在sum
不使用循环的情况下在标量中累积结果向量?
我正在使用 OpenCL 2.0。