12

很快关于我的问题:

我有一台带有 2 个 AMD Opteron 6272 插槽和 64GB RAM 的计算机。

我在所有 32 个内核上运行一个多线程程序,与我在一个 16 核插槽上运行 2 个程序的情况相比,速度降低了 15%。

如何制作一个程序版本和两个程序一样快?


更多细节:

我有大量任务,想要完全加载系统的所有 32 个内核。所以我将任务按 1000 个分组打包。这样一个组需要大约 120Mb 的输入数据,在一个内核上完成大约需要 10 秒。为了使测试更理想,我将这些组复制了 32 次,并使用 ITBB 的parallel_for循环在 32 个内核之间分配任务。

pthread_setaffinity_np用来确保系统不会让我的线程在内核之间跳转。并确保所有核心都被依次使用。

mlockall(MCL_FUTURE)用来确保系统不会让我的内存在套接字之间跳转。

所以代码看起来像这样:

  void operator()(const blocked_range<size_t> &range) const
  {
    for(unsigned int i = range.begin(); i != range.end(); ++i){

      pthread_t I = pthread_self();
      int s;
      cpu_set_t cpuset;
      pthread_t thread = I;
      CPU_ZERO(&cpuset);
      CPU_SET(threadNumberToCpuMap[i], &cpuset);
      s = pthread_setaffinity_np(thread, sizeof(cpu_set_t), &cpuset);

      mlockall(MCL_FUTURE); // lock virtual memory to stay at physical address where it was allocated

      TaskManager manager;
      for (int j = 0; j < fNTasksPerThr; j++){
        manager.SetData( &(InpData->fInput[j]) );
        manager.Run();
      }
    }
  }

只有计算时间对我来说很重要,因此我在单独的parallel_for循环中准备输入数据。并且不包括时间测量中的准备时间。

  void operator()(const blocked_range<size_t> &range) const
  {
    for(unsigned int i = range.begin(); i != range.end(); ++i){

      pthread_t I = pthread_self();
      int s;
      cpu_set_t cpuset;
      pthread_t thread = I;
      CPU_ZERO(&cpuset);
      CPU_SET(threadNumberToCpuMap[i], &cpuset);
      s = pthread_setaffinity_np(thread, sizeof(cpu_set_t), &cpuset);

      mlockall(MCL_FUTURE); // lock virtual memory to stay at physical address where it was allocated
      InpData[i].fInput = new ProgramInputData[fNTasksPerThr];

      for(int j=0; j<fNTasksPerThr; j++){
        InpData[i].fInput[j] = InpDataPerThread.fInput[j];
      }
    }
  }

现在我在 32 个内核上运行所有这些,看到每秒约 1600 个任务的速度。

然后我创建了两个版本的程序,tasksetpthread确保首先在第一个套接字的 16 个内核上运行,第二个在第二个套接字上运行。&我在 shell 中使用简单的命令将它们一个一个地运行:

program1 & program2 &

这些程序中的每一个都达到了约 900 个任务/秒的速度。总计 >1800 个任务/秒,比单程序版本多 15%。

我想念什么?

我认为问题可能出在库中,我仅将其加载到集合线程的内存中。这会是个问题吗?我可以复制库数据以便在两个套接字上独立使用吗?

4

2 回答 2

3

我猜想是 STL/boost 内存分配在 numa 节点之间为您的集合等分配内存,因为它们不知道 numa 并且您在每个节点上运行的程序中有线程。

您使用的所有 STL/boost 事物的自定义分配器可能会有所帮助(但可能是一项艰巨的工作)。

于 2013-11-13T09:45:49.847 回答
1

您可能会遇到错误共享缓存的糟糕情况:http ://en.wikipedia.org/wiki/False_sharing

您的线程可能通过 block_range 引用共享对相同数据结构的访问。如果您只需要速度,您可能希望将副本传递给每个线程。如果您的数据太大而无法放入调用堆栈,您可以在不同的缓存段中动态分配每个范围的副本(即只要确保它们足够远)。

或者,也许我需要查看其余代码以了解您做得更好的地方。

于 2013-11-13T09:55:08.497 回答