14

在使用 2Tb DRAM 的 80 核 (160HT) nehalem 架构上运行一些测试后,我遇到了一个小的 HPC 问题:

具有超过 2 个套接字的服务器开始大量停止(延迟),因为每个线程开始请求有关“错误”套接字上的对象的信息,即请求来自正在处理一个套接字上的某些对象的线程以提取信息这实际上是在另一个插槽上的 DRAM 中。

尽管我知道它们正在等待远程套接字返回请求,但这些内核似乎已被 100% 使用。

由于大多数代码是异步运行的,因此重写代码要容易得多,因此我可以将来自一个套接字上的线程的消息解析为另一个线程(无锁定等待)。此外,我想将每个线程锁定到内存池,这样我就可以更新对象,而不是在垃圾收集器上浪费时间(~30%)。

因此问题是:

如何在 Python 中使用预定的内存池对象将线程固定到内核?

更多上下文:

当您将 ZeroMQ 放在中间并在每个 ZMQworker 管理的内存池之间传递消息时,Python 运行多核是没有问题的。在 ZMQ 的 8M 消息/秒下,对象的内部更新所用的时间比管道可以填充的时间长。这一切都在这里描述:http: //zguide.zeromq.org/page :all#Chapter-Sockets-and-Patterns

因此,稍微简化一下,我生成了 80 个 ZMQworkerprocesses 和 1 个 ZMQrouter 并使用大量对象(实际上是 5.84 亿个对象)加载上下文。从这个“起点”开始,对象需要交互以完成计算。

这是这样的想法:

  • 如果“对象 X”需要与“对象 Y”交互,并且在 python 线程的本地内存池中可用,则应直接进行交互。
  • 如果“对象 Y”在同一个池中不可用,那么我希望它通过 ZMQrouter 发送消息并让路由器在稍后的某个时间点返回响应。我的架构是非阻塞的,因此特定 python 线程中发生的事情会继续进行,而无需等待 zmqRouters 响应。即使对于同一个套接字上但在不同内核上的对象,我也不希望进行交互,因为我更喜欢干净的消息交换,而不是让 2 个线程操作同一个内存对象。

为此,我需要知道:

  1. 如何确定给定 python 进程(线程)在哪个套接字上运行。
  2. 如何将该特定套接字上的内存池分配给 python 进程(一些 malloc 限制或类似限制,以便内存池的总和不会将内存池从一个套接字推到另一个套接字)
  3. 我没有想到的事情。

但是我在 python 文档中找不到有关如何执行此操作的参考,并且在谷歌上我必须搜索错误的东西。

更新:

关于“为什么在 MPI 架构上使用 ZeroMQ?”的问题,请阅读线程:Spread vs MPI vs zeromq?因为我正在开发的应用程序是为分布式部署而设计的,即使它是在 MPI 更适合的架构上进行测试

更新 2:

关于这个问题:

“如何在 Python(3) 中将线程固定到具有预定内存池的内核”答案在psutils中:

>>> import psutil
>>> psutil.cpu_count()
4
>>> p = psutil.Process()
>>> p.cpu_affinity()  # get
[0, 1, 2, 3]
>>> p.cpu_affinity([0])  # set; from now on, this process will run on CPU #0 only
>>> p.cpu_affinity()
[0]
>>>
>>> # reset affinity against all CPUs
>>> all_cpus = list(range(psutil.cpu_count()))
>>> p.cpu_affinity(all_cpus)
>>>

worker 可以与一个核心挂钩,从而可以有效地利用 NUMA(查找您的 CPU 类型以验证它是一个 NUMA 架构!)

第二个元素是确定内存池。这也可以使用psutils资源库来完成:

4

2 回答 2

5

你可能低估了这个问题,没有超级简单的方法可以完成你想要的。作为一般准则,您需要在操作系统级别工作以按照您想要的方式进行设置。您想要使用所谓的“CPU 亲和性”和“内存亲和性”,您需要认真考虑您的系统架构和软件架构,以使事情正确。在真正的 HPC 中,命名的“关联性”通常由 MPI 库处理,例如 Open MPI。您可能需要考虑使用一个,并让该 MPI 库处理您的不同进程。操作系统、MPI 库和 Python 之间的接口可以由 mpi4py 包提供。

您还需要了解线程和进程的概念以及操作系统设置。虽然对于 CPU 时间调度程序,线程是要调度的任务,因此理论上可以具有单独的亲和性,但我只知道整个进程的亲和性掩码,即一个进程中的所有线程。对于控制内存访问,NUMA(非统一内存访问)是正确的关键字,您可能需要查看http://linuxmanpages.com/man8/numactl.8.php

在任何情况下,您都需要阅读有关亲和力主题的文章,并且可能希望开始阅读有关 CPU/内存亲和力的 Open MPI 常见问题解答: http ://www.open-mpi.de/faq/?category=tuning#paffinity -defs

如果您想在不使用 MPI 库的情况下实现目标,请查看 Linux 发行版的包util-linuxschedutilsandnumactl以获得有用的命令行工具,例如taskset,您可以从 Python 中调用这些工具,以便为某些设置关联掩码进程 ID。

这篇文章似乎生动地描述了 MPI 库如何帮助您解决问题:

http://blogs.cisco.com/performance/open-mpi-v1-5-processor-affinity-options/

这个 SO 答案描述了您如何将硬件架构一分为二:https ://stackoverflow.com/a/11761943/145400

一般来说,我想知道您正在应用的机器是否适合该任务,或者您是否可能在错误的一端进行优化。如果您在一台机器进行消息传递并达到内存带宽限制,我不确定 ZMQ(通过 TCP/IP,对吗?)是否是执行消息传递的正确工具。回到 MPI, HPC 应用程序消息传递接口......

于 2013-08-14T00:08:29.430 回答
0

只是想知道这是否不适合使用 python 远程对象——这可能值得调查,但不幸的是我无法访问这样的硬件。

正如文档中所解释的,虽然 pyro 通常用于在网络上的多台机器上分配工作,但它也可以用于在单台机器上的内核之间共享处理。

在较低级别上,Pyro 只是进程间通信的一种形式。因此,在 Python 组件之间使用更原始形式的 IPC(例如普通 TCP/IP 套接字)的任何地方,您都可以考虑使用 Pyro。

虽然 pyro 可能会增加一些开销,但它可能会加快速度并且应该使事情更易于维护。

于 2013-08-10T08:07:22.220 回答