c++ - CUDA - 简单的复数乘法

Question

我正在尝试通过编写基本代码来学习 CUDA，这有望使我能够更好地将现有的 C++ 代码转换为 CUDA（用于研究）。

我需要做一些复杂的数字操作，所以我编写了这个非常基本的代码来将复数数组与 GPU 内核中的实数相乘。

#include <complex>
#include <iostream>
#include <cmath>
#include "cuda.h"
#include "math.h"
#include "cuComplex.h"

#define n   5

using namespace std;

#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, char *file, int line, bool abort=true)
{
    if (code != cudaSuccess) 
    {
        fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
        if (abort) exit(code);
    }
}

__global__ void func( double *s, cuDoubleComplex *j, cuDoubleComplex *calc ) {

    int tid = blockIdx.x;

    calc[tid] = cuCmul(j[tid], make_cuDoubleComplex(*s, 0));

}

int main( void ) {


    cuDoubleComplex calc[n+1], *dev_j, *dev_calc;
    double *dev_s, s[n+1] = { 2.0, 2.0, 2.0, 2.0, 2.0 };
    //complex<double> j[n+1]
    cuDoubleComplex j[n+1];

    for (int i = 1; i <= n; i++) {
        j[i] = make_cuDoubleComplex(0, 5);
        cout << "\nJ cout = " << cuCreal(j[i]) << ", " << cuCimag(j[i]);
    }

    // allocate the memory on the GPU
    cudaMalloc( (void**)&dev_s, (n+1) * sizeof(double) );
    cudaMalloc( (void**)&dev_j, (n+1) * sizeof(double) );
    cudaMalloc( (void**)&dev_calc, (n+1) * sizeof(double) );

    cudaMemcpy( dev_s, s, (n+1) * sizeof(double), cudaMemcpyHostToDevice );
    cudaMemcpy( dev_j, j, (n+1) * sizeof(double), cudaMemcpyHostToDevice );

    func<<<n,1>>>( dev_s, dev_j, dev_calc );
    //kernel<<<1,1>>>(a_d);
    gpuErrchk( cudaPeekAtLastError() );
    gpuErrchk( cudaMemcpy(calc, dev_calc, (n+1) * sizeof(double), cudaMemcpyDeviceToHost) );

    //cudaMemcpy( calc, dev_calc, (n+1) * sizeof(double), cudaMemcpyDeviceToHost );

    for (int i = 1; i <= n; i++) {
        cout << "\nCALC cout = " << cuCreal(calc[i]) << ", " << cuCimag(calc[i]);
    }

    return 0;
}

最后的答案是错误的，我还确定了其他一些我没有得到预期值的地方。

1) 在下面的代码行之后，我期望 'j' 的所有元素都有一个复杂的双精度数组 (0, 5i)。但是，我得到的都是 0。这是为什么？

j[i] = make_cuDoubleComplex(0, 5);

2) 为什么我不能使用 cout 打印我的数组？下面显示的代码行给出了以下错误：没有运算符“<<”与这些操作数匹配。如何在不使用 printf 的情况下解决此问题？

cout << "\nJ = " << j[i];

3) GPU 函数 'func' 应该给出一个数组 (0, 10i) 作为最终答案，它给出了如下随机值：

CALC = -1.#QNAN0
CALC = -1.#QNAN0
CALC = -9255963134931783100000000...000.. etc
CALC = -9255963134931783100000000...000.. etc

4) 对于我的实际研究，复数数组'j'将以complex(double)而不是cuDoubleComplex的格式给出。我可以使用函数'func'对'j'复杂（双）数组进行类似的操作吗？如果没有，我有什么选择？

我想我已经很好地解释了自己，但请随时提出任何后续问题。C++ 和 CUDA 的新手，所以要友好：D

score 1 · Accepted Answer

在编写 CUDA 代码时，尤其是当您正在学习或遇到困难时（事情没有按照您期望的方式工作），您应该始终对所有 CUDA API 调用和内核调用进行cuda 错误检查。

我认为您的代码中实际上没有任何 CUDA 功能错误（干得好！）但值得指出。

您的大多数问题都是由于您没有cuDoubleComplex正确打印出类型。您的 printf 语句指定了float格式参数 ( %f)，但您没有传递float值（您正在传递cuDoubleComplex值）。那是行不通的，并且printf当你这样做时会表现得很奇怪，没有给出任何错误指示。

相反，尝试这样的事情：

printf("\nJ = %f, %f", cuCreal(j[i]), cuCimag(j[i]));

这些函数 (cuCreal和cuCimag) 返回数字的实部和虚部cuComplex，并将它们作为适当的类型返回，float或者double，在这种情况下，从doubleto的隐式转换float对于您正在做的事情来说是可以的，并且可以由printf(尽管它是不是很好的编程实践——而是使用正确的printf格式说明符作为double值）。

如果您对两个 printf 语句都进行了更改，我认为您会得到预期的结果——至少在我运行您的代码时是这样。如果你仍然得到垃圾，那么你的 CUDA GPU 可能无法正常工作，这里是我提到的 CUDA 错误检查将帮助你发现问题所在的地方。

关于你的问题cout，答案大致相当于我对发生的事情的解释printf。 cout不理解类型cuDoubleComplex，因此引发错误。如果您想在不使用的情况下修复它，请使用我在上面声明中指出的转换函数printf将您转换为由orcuDoubleComplex表示的各个实部和虚部。floatdoubleprintf

complex关于您的最后一个问题，将您的数据转换为cuDoubleComplex类型应该不难。编写一个转换函数来根据你在cuComplex.h 有后门方法中的实用程序来完成它，但它们不是很好的编程习惯。

编辑：为了回答后续问题，当前发布的代码中还有两个错误。

dev_j并且dev_calc是类型的，cuDoubleComplex但是您正在做这些数量cudaMalloc，cudaMemcpy就好像它们是大小一样double。在以下代码中，我将这些sizeof(double)条目更改为sizeof(cuDoubleComplex).
对于 C 和 C++，您的索引通常有点奇怪。通常索引从零开始。您遇到了一个索引问题，其中最后一个元素没有被正确计算。我将所有索引更改为从零开始。

这是对我有用的代码的修改：

//#include <complex>  // not necessary for this code
#include <iostream>
#include <cmath>
//#include "cuda.h"  // not necessary when compiling with nvcc
#include "math.h"
#include "cuComplex.h"

#define n   5

using namespace std;

#define gpuErrchk(ans) { gpuAssert((ans), __FILE__, __LINE__); }
inline void gpuAssert(cudaError_t code, char *file, int line, bool abort=true)
{
    if (code != cudaSuccess)
    {
        fprintf(stderr,"GPUassert: %s %s %d\n", cudaGetErrorString(code), file, line);
        if (abort) exit(code);
    }
}

__global__ void func( double *s, cuDoubleComplex *j, cuDoubleComplex *calc ) {

    int tid = blockIdx.x;

    calc[tid] = cuCmul(j[tid], make_cuDoubleComplex(*s, 0));

}

int main( void ) {


    cuDoubleComplex calc[n+1], *dev_j, *dev_calc;
    double *dev_s, s[n] = { 2.0, 2.0, 2.0, 2.0, 2.0 };
    //complex<double> j[n+1]
    cuDoubleComplex j[n];

    for (int i = 0; i < n; i++) {
        j[i] = make_cuDoubleComplex(0, 5);
        cout << "\nJ cout = " << cuCreal(j[i]) << ", " << cuCimag(j[i]);
    }

    // allocate the memory on the GPU
    cudaMalloc( (void**)&dev_s, (n) * sizeof(double) );
    cudaMalloc( (void**)&dev_j, (n) * sizeof(cuDoubleComplex) );
    cudaMalloc( (void**)&dev_calc, (n) * sizeof(cuDoubleComplex) );

    cudaMemcpy( dev_s, s, (n) * sizeof(double), cudaMemcpyHostToDevice );
    cudaMemcpy( dev_j, j, (n) * sizeof(cuDoubleComplex), cudaMemcpyHostToDevice );

    func<<<n,1>>>( dev_s, dev_j, dev_calc );
    //kernel<<<1,1>>>(a_d);
    gpuErrchk( cudaPeekAtLastError() );
    gpuErrchk( cudaMemcpy(calc, dev_calc, (n) * sizeof(cuDoubleComplex), cudaMemcpyDeviceToHost) );

    //cudaMemcpy( calc, dev_calc, (n+1) * sizeof(double), cudaMemcpyDeviceToHost );

    for (int i = 0; i < n; i++) {
        cout << "\nCALC cout = " << cuCreal(calc[i]) << ", " << cuCimag(calc[i]);
    }

    return 0;
}

c++ - CUDA - 简单的复数乘法

1 回答 1

Related

Reference