c++ - CUDA：在 C++ 中包装设备内存分配

Question

我现在开始使用 CUDA，不得不承认我对 C API 有点失望。我理解选择 C 的原因，但是如果该语言是基于 C++ 的，那么有几个方面会简单得多，例如设备内存分配（通过cudaMalloc）。

我的计划是自己做这件事，使用operator new放置new和 RAII 重载（两种选择）。我想知道到目前为止是否有任何我没有注意到的警告。该代码似乎有效，但我仍然想知道潜在的内存泄漏。

RAII代码的用法如下：

CudaArray<float> device_data(SIZE);
// Use `device_data` as if it were a raw pointer.

在这种情况下，一个类可能是矫枉过正（特别是因为你仍然必须使用cudaMemcpy，类只封装 RAII）所以另一种方法是放置new：

float* device_data = new (cudaDevice) float[SIZE];
// Use `device_data` …
operator delete [](device_data, cudaDevice);

在这里，cudaDevice仅仅作为一个标签来触发过载。然而，由于在正常放置中new这将指示放置，我发现语法奇怪地一致，甚至可能比使用类更可取。

我会很感激各种批评。是否有人可能知道下一个版本的 CUDA 是否计划在这个方向上做一些事情（正如我所听说的，这将改进其对 C++ 的支持，无论他们的意思是什么）。

所以，我的问题实际上是三个方面：

我的展示位置new重载在语义上是否正确？它会泄漏内存吗？
有没有人知道未来 CUDA 发展朝着这个大方向发展的信息（让我们面对现实：C++ s*ck 中的 C 接口）？
我怎样才能以一致的方式更进一步（还有其他 API 需要考虑，例如不仅有设备内存，还有常量内存存储和纹理内存）？

// Singleton tag for CUDA device memory placement.
struct CudaDevice {
    static CudaDevice const& get() { return instance; }
private:
    static CudaDevice const instance;
    CudaDevice() { }
    CudaDevice(CudaDevice const&);
    CudaDevice& operator =(CudaDevice const&);
} const& cudaDevice = CudaDevice::get();

CudaDevice const CudaDevice::instance;

inline void* operator new [](std::size_t nbytes, CudaDevice const&) {
    void* ret;
    cudaMalloc(&ret, nbytes);
    return ret;
}

inline void operator delete [](void* p, CudaDevice const&) throw() {
    cudaFree(p);
}

template <typename T>
class CudaArray {
public:
    explicit
    CudaArray(std::size_t size) : size(size), data(new (cudaDevice) T[size]) { }

    operator T* () { return data; }

    ~CudaArray() {
        operator delete [](data, cudaDevice);
    }

private:
    std::size_t const size;
    T* const data;

    CudaArray(CudaArray const&);
    CudaArray& operator =(CudaArray const&);
};

关于这里使用的单身人士：是的，我知道它的缺点。但是，这些在这种情况下无关紧要。我在这里只需要一个不可复制的小型标签。其他一切（即多线程注意事项、初始化时间）都不适用。

score 7 · Accepted Answer

与此同时，还有一些进一步的发展（不是在 CUDA API 方面，但至少在尝试使用类似 STL 的 CUDA 数据管理方法的项目方面）。

最值得注意的是 NVIDIA 研究的一个项目：推力

score 5 · Accepted Answer

我会采用安置新方法。然后我会定义一个符合 std::allocator<> 接口的类。理论上，您可以将此类作为模板参数传递给 std::vector<> 和 std::map<> 等等。

当心，我听说做这样的事情充满了困难，但至少你会通过这种方式学到更多关于 STL 的知识。而且你不需要重新发明你的容器和算法。

score 2 · Accepted Answer

有几个项目尝试类似的东西，例如CUDPP。

然而，与此同时，我实现了自己的分配器，它运行良好且简单明了（> 95% 的样板代码）。

score 2 · Accepted Answer

有没有人知道未来 CUDA 发展朝着这个大方向发展的信息（让我们面对现实：C++ s*ck 中的 C 接口）？

是的，我做过类似的事情：

https://github.com/eyalroz/cuda-api-wrappers/

nVIDIA 的 CUDA 运行时 API 适用于 C 和 C++ 代码。因此，它使用 C 风格的 API，即较低的公分母（模板化函数重载的一些显着例外）。

这个围绕运行时 API 的包装库旨在允许我们包含 C++ 的许多特性（包括一些 C++11）以使用运行时 API - 但不会降低表达性或增加抽象级别（例如，，推力库）。使用 cuda-api-wrappers，您仍然拥有您的设备、流、事件等 - 但以更多 C++ 惯用方式使用它们会更方便。

c++ - CUDA：在 C++ 中包装设备内存分配

4 回答 4

Related

Reference