我想在英特尔至强融核上仅使用 std::thread (没有其他库)开发批量同步并行模型。我将代码组织在 2 个类中:Superstep 和 Worker。Superstep 类包含一个工人向量。
超步.hpp
template <typename T>
class SuperStep {
private:
int nw;
std::vector<T> input;
std::vector<std::vector<T>> chunks;
std::vector<std::unique_ptr<Worker<T>>> workers; //vector of pointers
std::vector<std::vector<T>> output;
public:
SuperStep(int n, std::vector<T> input);
~SuperStep();
std::vector<T> get_input();
int get_parallel_degree();
template<typename F,typename ...Args>
void computation(std::function<F(Args...)> b);
void communication();
};
Worker 类是一个线程包装器
工人.hpp
template <typename T>
class Worker {
private:
int id;
SuperStep<T> *ss;
std::thread thread;
std::vector<T> input;
std::vector<T> output;
public:
Worker(int id, SuperStep<T> *s);
Worker(const Worker&) = delete;
Worker(Worker &&other);
Worker& operator=(const Worker&) = delete;
Worker& operator=(Worker&&) = delete;
~Worker();
int get_id();
std::vector<T> get_output();
void set_input(std::vector<T>, int worker_index);
template<typename F,typename ...Args>
void work(std::function<F(Args...)> body);
};
当我运行 Superstep 的计算时,每个工作人员调用其 work() 函数,该函数使用模板函数“body”从工作人员输入计算工作人员输出。
//Superstep Computation
template<typename T>
template<typename F,typename ...Args>
void SuperStep<T>::computation(std::function<F(Args...)> body)
{
for (auto &w: workers)
w->work(body);
}
//////////////////////////////////////////////////////////////////
//Worker work function
template<typename T>
template<typename F, typename ...Args>
void Worker<T>::work(std::function<F(Args...)> body)
{
thread = std::thread{[this,body]()
{
output = body(input);
}
};
}
我不明白如何在 Xeon Phi 这样的 MIC 处理器上实现通信阶段,或者更确切地说,如何将每个工作人员的输出与其他工作人员交换。通信包括将数据发送到处理器(我不知道如何)或将输出保存在重复的可锁定向量中(但这似乎更“共享内存”方法)?
提前致谢!