cuda - 针对数组的标准化优化 Cuda 内核

Question

我正在尝试按如下方式规范化数组。

选择数组的前两个元素，找到总和并使用该总和除以它们。
对其余元素执行相同操作。

它工作正常。但是当我增加数组的维度时，时间复杂度就会出现。我在下面给出了我的代码。

import pycuda.driver as drv
import pycuda.autoinit
from pycuda.compiler import SourceModule
import numpy as np

mod=SourceModule("""
__global__ void addition(float* a,float* c,float* d)
{
int i=blockIdx.y*blockDim.y+threadIdx.y;
for (i=0;i<=4;++i)
{
    int sum=0.0;
    for (int j=0;j<=1;++j)
    {
        sum+=a[2*i+j];
    }
c[i]=sum;
}
for (i=0;i<=4;i++)
{
    for (int j=0;j<=1;++j)
    {
        d[2*i+j]=a[2*i+j]/c[i];
    }
}
}
""")

addition=mod.get_function("addition")
a=np.array([1,2,3,1,2,3,2,1]).astype(np.float32)
c=np.zeros_like(a)
d=np.zeros_like(a)
addition(drv.In(a),drv.InOut(c),drv.InOut(d),block=(1,8,1))
print d

d 的结果是 [0.33333334 0.66666669 0.75 0.25 0.40000001 0.60000002 0.666666669 0.33333334]。任何人都可以提出一些优化代码的想法吗？

score 1 · Accepted Answer

如果您的实际应用程序只是对中的一对值求和a，将该总和存储在c其中，然后用总和对这对值进行归一化并将它们存储在中d，这样的事情是合理的：

__global__ void addition(float* a, float* c, float* d)
{
    int idx = threadIdx.x + blockDim.x*blockIdx.x;

    float2* avec = reinterpret_cast<float2*>(a);
    float2* dvec = reinterpret_cast<float2*>(d);

    float2 val = avec[idx];
    float sum = val.x + val.y;
    val.x \= sum;
    val.y \= sum;

    c[idx] = sum;
    dvec[idx] = val;     
}

[免责声明：在浏览器中编写，从未编译，从未测试，不保证不会让您的 GPU 着火，使用风险自负]

这里使用向量类型来提高内存吞吐量，每个线程处理一对值。对于 N 个值，运行 N/2 个线程。如果您有超过 131070 个输入值（即 65535 对），则需要修改内核以处理多个输入。如果出现这种情况，我将把它作为练习留给读者。

cuda - 针对数组的标准化优化 Cuda 内核

1 回答 1

Related

Reference