c++ - 多处理器提升::线程？所有线程在一个处理器上运行

Question

我有一个令人尴尬的并行问题，我想在多个处理器上执行。我原以为这boost::thread会自动将新线程发送到新处理器，但它们都在与父进程相同的核心上执行。是否可以让每个线程在不同的处理器上运行，或者我需要像 MPI 这样的东西吗？

我的怀疑是这boost::thread根本不是一个多处理器工具，我要求它做一些不是为它设计的事情。

编辑：我的问题归结为：为什么所有线程都在一个处理器上执行？有没有办法boost::thread将线程发送到不同的处理器？

这是我的代码的相关示例：

size_t lim=1000;
std::deque<int> vals(lim);
std::deque<boost::thread *> threads;
int i=0; 
std::deque<int>::iterator it = vals.begin();
for (; it!=sigma.end(); it++, i++) {
  threads.push_back(new boost::thread(doWork, it, i));
  while (threads.size() >= maxConcurrentThreads) {
    threads.front()->join();
    delete threads.front();
    threads.pop_front();
  }
}
while(threads.size()) {
  threads.front()->join();
  threads.pop_front();
}

应该清楚，doWork使用参数进行一些计算i并将结果存储在vals. 我的想法是设置maxConncurrentThreads等于可用的核心数量，然后每个线程将使用空闲的核心。我只需要有人确认boost::thread不能以这种方式工作。

（我想有比使用队列更好的方法来限制并发线程的数量；也请随意责骂我。）

这是doWork功能：

void doWork(std::deque<int>::iterator it, int i) {
  int ret=0;
  int size = 1000; // originally 1000, later changed to 10,000,000
  for (int j=i; j<i+size; j++) {
    ret+=j;
  }
  *it=ret;
  return;
}

编辑：正如 Martin James 建议的那样，问题在于 doWork 函数最初只有 1000 个 int 加法。对于这么小的作业，调度线程比执行线程花费的时间更长，因此只使用了一个处理器。使工作更长（添加 10,000,000 个整数）会产生所需的行为。关键是：默认情况下boost::thread 将使用多个内核，但是如果您的线程做的工作比调度线程少，那么您将看不到多线程的任何好处。

感谢大家帮助我理解这一点。

score 5 · Accepted Answer

您总是加入队列中的第一个线程。如果这个线程需要很长时间，它可能是唯一剩下的线程。我想您想要的是在任何线程完成后启动一个新线程。

我不知道为什么您只能获得一个有效的并发级别。

在查看了 doWork 函数之后，我认为它所做的工作是如此之少，以至于它所花费的工作比首先启动一个线程要少。尝试用更多的工作（1000x）运行它。

c++ - 多处理器提升::线程？所有线程在一个处理器上运行

1 回答 1

Related

Reference