matrix - CUBLAS - 矩阵元素求幂可能吗？

Question

我正在使用 CUBLAS（Cuda Blas 库）进行矩阵运算。

是否可以使用 CUBLAS 来实现矩阵项的求幂/均方根？

我的意思是，有 2x2 矩阵

1 4
9 16

我想要的是一个提升到给定值的函数，例如 2

1 16
81 256

并计算均方根，例如

1 2
3 4

CUBLAS 可以做到这一点吗？我找不到适合这个目标的函数，但我会先在这里请求开始编写我自己的内核。

score 10 · Accepted Answer

所以这很可能是你必须自己实现的东西，因为库不会为你做。（可能有一些方法可以根据 BLAS 3 级例程来实现它 - 当然是矩阵元素的平方 - 但它会涉及昂贵且不必要的矩阵向量乘法。我仍然不知道你是怎么做的d 做平方根运算）。原因是这些运算并不是真正的线性代数过程。取每个矩阵元素的平方根并不真正对应于任何基本的线性代数运算。

好消息是这些元素操作在 CUDA 中实现起来非常简单。同样，为了获得最佳性能，可以使用许多调整选项，但可以相当容易地开始。

与矩阵加法运算一样，您将在这里将 NxM 矩阵视为 (N*M) 长度的向量；矩阵的结构对于这些元素操作无关紧要。因此，您将传递一个指向矩阵第一个元素的指针，并将其视为 N*M 数字的单个列表。（我将假设您在float这里使用 s ，正如您之前所说的SGEMM那样SAXPY。）

内核，即实现操作的实际 CUDA 代码位，非常简单。目前，每个线程将计算一个数组元素的平方（或平方根）。（这对于性能来说是否是最佳的，你可以测试一下）。所以内核看起来像下面这样。我假设你正在做类似 B_ij = (A_ij)^2; 的事情。如果您想就地进行操作，例如 A_ij = (A_ij)^2，您也可以这样做：

__global__ void squareElements(float *a, float *b, int N) {
    /* which element does this compute? */
    int tid = blockDim.x * blockIdx.x + threadIdx.x;

    /* if valid, squre the array element */
    if (tid < N) 
            b[tid] = (a[tid]*a[tid]);
}

__global__ void sqrtElements(float *a, float *b, int N) {
    /* which element does this compute? */
    int tid = blockDim.x * blockIdx.x + threadIdx.x;

    /* if valid, sqrt the array element */
    if (tid < N) 
            b[tid] = sqrt(a[tid]);   /* or sqrtf() */
}

请注意，如果您可以接受非常轻微的误差增加，则最大误差为 3 ulp（最后一个单位）的“sqrtf()”函数会明显更快。

你如何调用这些内核将取决于你做事的顺序。如果您已经对这些矩阵进行了一些 CUBLAS 调用，您将希望在 GPU 内存中已经存在的数组上使用它们。

matrix - CUBLAS - 矩阵元素求幂可能吗？

1 回答 1

Related

Reference