我希望使用不同类型的 HPC 范例来实现一个简单的 Mandelbrot 集绘图仪,展示它们的优缺点以及实现的难易程度。想想 GPGPU (CUDA/OpenACC/OpenMP4.5)、线程/OpenMP 和 MPI。并使用这些示例为 HPC 新手提供帮助并了解可能性。代码的清晰性比从硬件中获得绝对顶级性能更重要,这是第二步;)
因为并行化这个问题很简单,而且现代 CPU 可以使用向量指令获得大量性能,所以我还想结合 OpenMP 和 SIMD。不幸的是,简单地添加 a#pragma omp simd
并不能产生令人满意的结果,并且使用内在函数不是非常用户友好或未来证明。还是蛮漂亮的。
幸运的是,正在对 C++ 标准进行工作,以便更容易通用地实现向量指令,如 TS: "Extensions for parallelism, version 2"中所述,特别是第 9 节关于数据并行类型。WIP 实现可以在这里找到,它基于 VC,可以在这里找到。
假设我有以下课程(已更改以使其更简单)
#include <stddef.h>
using Range = std::pair<double, double>;
using Resolution = std::pair<std::size_t, std::size_t>;
class Mandelbrot
{
double* d_iters;
Range d_xrange;
Range d_yrange;
Resolution d_res;
std::size_t d_maxIter;
public:
Mandelbrot(Range xrange, Range yrange, Resolution res, std::size_t maxIter);
~Mandelbrot();
void writeImage(std::string const& fileName);
void computeMandelbrot();
private:
void calculateColors();
};
以及以下computeMandelbrot()
使用 OpenMP的实现
void Mandelbrot::computeMandelbrot()
{
double dx = (d_xrange.second - d_xrange.first) / d_res.first;
double dy = (d_yrange.second - d_yrange.first) / d_res.second;
#pragma omp parallel for schedule(dynamic)
for (std::size_t row = 0; row != d_res.second; ++row)
{
double c_imag = d_yrange.first + row * dy;
for (std::size_t col = 0; col != d_res.first; ++col)
{
double real = 0.0;
double imag = 0.0;
double realSquared = 0.0;
double imagSquared = 0.0;
double c_real = d_xrange.first + col * dx;
std::size_t iter = 0;
while (iter < d_maxIter && realSquared + imagSquared < 4.0)
{
realSquared = real * real;
imagSquared = imag * imag;
imag = 2 * real * imag + c_imag;
real = realSquared - imagSquared + c_real;
++iter;
}
d_iters[row * d_res.first + col] = iter;
}
}
}
我们可以假设 x 和 y 方向的分辨率都是 2/4/8/.. 的倍数,具体取决于我们使用的 SIMD 指令。
不幸的是,在std::experimental::simd
. 据我所知,也没有任何重要的例子。
在 Vc git 存储库中,有一个 Mandelbrot 集合计算器的实现,但它非常复杂,并且由于缺少注释而很难理解。
很明显,我应该更改函数中双精度数的数据类型computeMandelbrot()
,但我不确定是什么。TS 提到了某些类型 T 的两个主要新数据类型,
native_simd = std::experimental::simd<T, std::experimental::simd_abi::native>;
和
fixed_size_simd = std::experimental::simd<T, std::experimental::simd_abi::fixed_size<N>>;
使用native_simd
是最有意义的,因为我在编译时不知道我的界限。但是我不清楚这些类型代表什么,是native_simd<double>
单个双精度数还是执行向量指令的双精度数集合?那么这个系列中有多少双打?
如果有人可以指出使用这些概念的示例,或者给我一些关于如何使用 std::experimental::simd 实现矢量指令的指示,我将非常感激。