cuda - 如何将一个自写的类（包括动态内存）传入内核并返回？

Question

我想用 CUDA 在 3D 对象中进行光散射模拟，它类似于光线追踪。所以我需要一个向量类。

我试图将一个代表我的光子的类带到设备上。该类包括一个动态分配的向量类（自写）。它不是动态的，但在其他情况下我会遇到同样的问题。

问题是，如果我尝试修改内核中的向量，则会出现未指定的启动失败。

我认为这也可能是复制构造函数的问题，或者其他什么。我有一段时间没有编程 C++/CUDA。

我使用具有计算能力 2.0 和 CUDA 5.0 的 GTX 480。

这是我的主要内容：

#include "photon.cuh"
#include "Container/vector3f.cu"

// Device code (Kernel, GPU)
__global__ void Sim(photon * l_x){
    l_x->vec->m_x = l_x->vec->m_x +1;
    l_x->vec->m_y = l_x->vec->m_y +1;
    l_x->vec->m_z = l_x->vec->m_z +1;
}

// Host Code (CPU)
int main(int argc, char** argv)
{
    photon *h_x,*d_x,*h_x2;

    h_x = new photon();
    //h_x->vec = new vector3f();
    h_x->vec->m_x = 1;
    h_x->vec->m_y = 2;
    h_x->vec->m_z = 3;

    std::cout << "Malloc" << std::endl;
    h_x2 = (photon*)malloc(sizeof(photon));
    cudaMalloc((void**)&d_x,sizeof(photon));

    std::cout << "Cpy h-d" << std::endl;
    cudaMemcpy(d_x,h_x,sizeof(photon),cudaMemcpyHostToDevice);
    cudaError_t Err = cudaGetLastError();
    if ( cudaSuccess != Err )
        std::cout << cudaGetErrorString (Err) << std::endl;

    std::cout << "Sim" << std::endl;
    Sim<<<1, 1>>>(d_x);
    cudaThreadSynchronize();

    Err = cudaGetLastError();
    if ( cudaSuccess != Err )
        std::cout << cudaGetErrorString (Err) << std::endl;

    std::cout << "CPY back" << std::endl;
    cudaMemcpy(h_x2, d_x, sizeof(photon), cudaMemcpyDeviceToHost);

    std::cout << h_x2->vec->m_x << std::endl;
    std::cout << h_x2->vec->m_y << std::endl;
    std::cout << h_x2->vec->m_z << std::endl;

    cudaFree(d_x);
    return 0;
}

光子类：(.cuh)

class photon {
public:
    vector3f *vec;
    __host__ __device__ photon();
    __host__ __device__ virtual ~photon();
    __host__ __device__ photon(const photon &other);
};

(.cu)

#include "photon.cuh"
#include "Container/vector3f.cu"

__host__ __device__ photon::photon(){
    this->vec = new vector3f();}

__host__ __device__ photon::~photon(){
    delete this->vec;}

__host__ __device__ photon::photon(const photon &rhs){
    this->vec = new vector3f(*rhs.vec);}

最后是向量类：

class vector3f {
public:
    float m_x;
    float m_y;
    float m_z;

__host__ __device__ vector3f(float l_x, float l_y, float l_z){
        this->m_x = l_x;
        this->m_y = l_y;
        this->m_z = l_z;}
__host__ __device__ vector3f(const vector3f& l_vector){
        this->m_x = l_vector.m_x;
        this->m_y = l_vector.m_y;
        this->m_z = l_vector.m_z;}
__host__ __device__ vector3f(){
        this->m_x = 0;
        this->m_y = 0;
        this->m_z = 0;}};

score 2 · Accepted Answer

潜在的问题是，您在任何地方实例化您的photon类的唯一时间是在主机上，并且您将该主机实例直接复制到设备。这意味着设备代码正在尝试取消引用 GPU 上的主机指针，这是非法的，并会产生您所看到的运行时错误。CUDA API 不做任何神奇的深度复制，所以你必须自己管理它。

显而易见的解决方案是重新设计photon类，以便vec按值存储而不是引用。然后整个问题就消失了（GPU 上的性能会好很多，因为您在内存访问期间删除了一定级别的指针间接）。

如果您执着于有一个指向的指针vec，请重新设计构造函数，以便它从内存池中获取一个指针，并分配一个设备池进行构造。如果将设备指针传递给构造函数，则生成的实例将具有指向有效设备内存的指针。

cuda - 如何将一个自写的类（包括动态内存）传入内核并返回？

1 回答 1

Related

Reference