0

我们如何在 AleaGpu 中使用 10000 行和 10000 列(而不是行 =10 和行 =5)的数组?

private void button3_Click(object sender, EventArgs e)
{
    var worker = Worker.Default;
    const int rows = 10;
    const int cols = 5;
    var rng = new Random();
    var inputs = new double[rows, cols];
    for (var row = 0; row < rows; ++row)
    {
        for (var col = 0; col < cols; ++col)
        {
            inputs[row, col] = rng.Next(1, 100);
        }
    }
    var dInputs = worker.Malloc(inputs);
    var dOutputs = worker.Malloc<double>(rows, cols);
    var lp = new LaunchParam(1, 1);
    worker.Launch(Kernel, lp, dOutputs.Ptr, dInputs.Ptr, rows, cols);
    var outputs = new double[rows, cols];
    dOutputs.Gather(outputs);
    Assert.AreEqual(inputs, outputs);
}

如果我使用 rows = 10000 和 cols = 10000 (而不是 rows = 10 和 rows = 5):

我在函数中收到错误“Alea.CUDA.dll 中发生类型为 'Alea.CUDA.CUDAInterop.CUDAException' 的未处理异常”:public static void Gather(this DeviceMemory dmem, T[,] array2D):

    dmem.Worker.EvalAction(() =>
        {
            CUDAInterop.cuSafeCall(CUDAInterop.cuMemcpyDtoH(hostPtr, devicePtr,
                new IntPtr(Intrinsic.__sizeof<T>() * rows * cols)));
        });  

如何消除此错误?

4

1 回答 1

1

首先, 中有一个枚举字段CUDAException,因此您可以更好地调试以获取它是什么 CUDA 错误。比如下面的代码:

        catch (CUDAInterop.CUDAException x)
        {
            var code = x.Data0;
            Console.WriteLine("ErrorCode = {0}", code);
            Assert.Fail();
        }

现在,我用 10000x10000 矩阵运行它,我得到了错误:CUDA_ERROR_LAUNCH_FAILED. 原因是内核无法执行,因为您正在一个线程中迭代一个大矩阵。我创建这个测试只是为了简单地展示如何使用 2d 数组,但如果你正在做一些真正的大事,请避免使用如此简单的内核,并在 1 个线程中执行它!这会导致内核运行时间过长,最后CUDA驱动发现运行时间过长,驱动会杀掉这个内核执行。所以设计一个新的真正的并行内核来迭代大矩阵。

于 2015-10-21T12:39:39.947 回答