6

我有n单独的 GPU,每个都存储自己的数据。我想让他们每个人同时执行一组计算。此处的 CUDArt 文档描述了使用流异步调用自定义 C 内核以实现并行化(另请参见此处的另一个示例)。使用自定义内核,这可以通过stream在 CUDArt 的launch()函数实现中使用参数来完成。然而,据我所知,CUSPARSE(或 CUBLAS)函数没有类似的流规范选项。

CUSPARSE 是否可以做到这一点,或者如果我想使用多个 GPU,我是否只需要深入 C 语言?

修订的赏金更新

好的,所以,我现在终于有了一个相对不错的解决方案。但是,我确信它可以通过一百万种方式进行改进——现在它很老套。特别是,我喜欢按照我在这个SO 问题中尝试和写的内容的解决方案建议(我从来没有正常工作)。因此,我很高兴将赏金奖励给在这里有更多想法的任何人。

4

2 回答 2

4

好的,所以,我想我终于找到了至少相对较好的东西。我仍然非常乐意将赏金提供给任何有进一步改进的人。特别是,基于我尝试(但未能)实施的设计(如此SO 问题中所述)的改进会很棒。但是,对此有任何改进或建议,我很乐意提供赏金。

我发现让 CUSPARSE 和 CUBLAS 之类的东西在多个 GPU 上并行化的方法的关键突破是,您需要为每个 GPU 创建一个单独的句柄。例如来自CUBLAS API的文档:

应用程序必须通过调用 cublasCreate() 函数来初始化 cuBLAS 库上下文的句柄。然后,将显式传递给每个后续的库函数调用。一旦应用程序完成使用该库,它必须调用函数 cublasDestory() 以释放与 cuBLAS 库上下文关联的资源。

这种方法允许用户在使用多个主机线程和多个 GPU 时显式控制库设置。例如,应用程序可以使用 cudaSetDevice() 将不同的设备与不同的主机线程相关联,并且在每个主机线程中,它可以初始化 cuBLAS 库上下文的唯一句柄,它将使用与该主机线程关联的特定设备。然后,使用不同句柄进行的 cuBLAS 库函数调用将自动将计算分派到不同的设备。

(重点补充)

有关其他有用的文档,请参见此处此处。

现在,为了真正推进这件事,我不得不做一堆相当混乱的黑客攻击。将来,我希望与开发 CUSPARSE 和 CUBLAS 包的人取得联系,以了解将其合并到他们的包中。虽然暂时,这就是我所做的:

首先,CUSPARSE 和 CUBLAS 包带有创建句柄的函数。但是,我必须稍微修改包以导出这些函数(以及所需的其他函数和对象类型),以便我自己可以实际访问它们。

具体来说,我添加CUSPARSE.jl了以下内容:

export libcusparse, SparseChar

libcusparse_types.jl以下:

export cusparseHandle_t, cusparseOperation_t, cusparseMatDescr_t, cusparseStatus_t

libcusparse.jl以下:

export cusparseCreate

以及sparse.jl以下内容:

export getDescr, cusparseop

通过所有这些,我能够获得对cusparseCreate()可用于创建新句柄的函数的功能访问(我不能只使用CUSPARSE.cusparseCreate()该函数,因为该函数依赖于一堆其他函数和数据类型)。从那里,我定义了一个我想要的新版本的矩阵乘法运算,它需要一个额外的参数,Handle,以提供给ccall()CUDA 驱动程序。以下是完整代码:

using CUDArt, CUSPARSE  ## note: modified version of CUSPARSE, as indicated above.

N = 10^3;
M = 10^6;
p = 0.1;

devlist = devices(dev->true);
nGPU = length(devlist)

dev_X = Array(CudaSparseMatrixCSR, nGPU)
dev_b = Array(CudaArray, nGPU)
dev_c = Array(CudaArray, nGPU)
Handles = Array(Array{Ptr{Void},1}, nGPU)


for (idx, dev) in enumerate(devlist)
    println("sending data to device $dev")
    device(dev) ## switch to given device
    dev_X[idx] = CudaSparseMatrixCSR(sprand(N,M,p))
    dev_b[idx] = CudaArray(rand(M))
    dev_c[idx] = CudaArray(zeros(N))
    Handles[idx] = cusparseHandle_t[0]
    cusparseCreate(Handles[idx])
end


function Pmv!(
    Handle::Array{Ptr{Void},1},
    transa::SparseChar,
    alpha::Float64,
    A::CudaSparseMatrixCSR{Float64},
    X::CudaVector{Float64},
    beta::Float64,
    Y::CudaVector{Float64},
    index::SparseChar)
    Mat     = A
    cutransa = cusparseop(transa)
    m,n = Mat.dims
    cudesc = getDescr(A,index)
    device(device(A))  ## necessary to switch to the device associated with the handle and data for the ccall 
    ccall(
        ((:cusparseDcsrmv),libcusparse), 

        cusparseStatus_t,

        (cusparseHandle_t, cusparseOperation_t, Cint,
        Cint, Cint, Ptr{Float64}, Ptr{cusparseMatDescr_t},
        Ptr{Float64}, Ptr{Cint}, Ptr{Cint}, Ptr{Float64},
        Ptr{Float64}, Ptr{Float64}), 

        Handle[1],
        cutransa, m, n, Mat.nnz, [alpha], &cudesc, Mat.nzVal,
        Mat.rowPtr, Mat.colVal, X, [beta], Y
    )
end

function test(Handles, dev_X, dev_b, dev_c, idx)
    Pmv!(Handles[idx], 'N',  1.0, dev_X[idx], dev_b[idx], 0.0, dev_c[idx], 'O')
    device(idx-1)
    return to_host(dev_c[idx])
end


function test2(Handles, dev_X, dev_b, dev_c)

    @sync begin
        for (idx, dev) in enumerate(devlist)
            @async begin
                Pmv!(Handles[idx], 'N',  1.0, dev_X[idx], dev_b[idx], 0.0, dev_c[idx], 'O')
            end
        end
    end
    Results = Array(Array{Float64}, nGPU)
    for (idx, dev) in enumerate(devlist)
        device(dev)
        Results[idx] = to_host(dev_c[idx]) ## to_host doesn't require setting correct device first.  But, it is  quicker if you do this.
    end

    return Results
end

## Function times given after initial run for compilation
@time a = test(Handles, dev_X, dev_b, dev_c, 1); ## 0.010849 seconds (12 allocations: 8.297 KB)
@time b = test2(Handles, dev_X, dev_b, dev_c);   ## 0.011503 seconds (68 allocations: 19.641 KB)

# julia> a == b[1]
# true
于 2016-07-17T19:55:37.863 回答
1

一个小的改进是将ccall表达式包装在检查函数中,以便在对 CUDA 的调用返回错误时获得输出。

于 2016-07-19T16:58:03.113 回答