我们有几个对延迟敏感的“流水线”式程序,当在一个 Linux 内核上运行时与另一个内核相比,它们具有可测量的性能下降。特别是,我们看到 2.6.9 CentOS 4.x (RHEL4) 内核的性能更好,而 CentOS 5.x (RHEL5) 的 2.6.18 内核性能更差。
“管道”程序是指具有多个线程的程序。多个线程处理共享数据。每个线程之间都有一个队列。所以线程 A 获取数据,推入 Qab,线程 B 从 Qab 拉取数据,进行一些处理,然后推入 Qbc,线程 C 从 Qbc 拉取数据,等等。初始数据来自网络(由第 3 方生成)。
我们基本上测量从收到数据到最后一个线程执行其任务的时间。在我们的应用程序中,当从 CentOS 4 迁移到 CentOS 5 时,我们发现任何时间都增加了 20 到 50 微秒。
我使用了几种方法来分析我们的应用程序,并确定 CentOS 5 上增加的延迟来自队列操作(特别是弹出)。
但是,我可以通过使用任务集将程序绑定到可用内核的子集来提高 CentOS 5(与 CentOS 4 相同)的性能。
所以对我来说,在 CentOS 4 和 5 之间,有一些变化(可能是内核)导致线程的调度方式不同(这种差异对我们的应用程序来说不是最理想的)。
虽然我可以使用任务集(或通过 sched_setaffinity() 在代码中)“解决”这个问题,但我的偏好是不必这样做。我希望有某种内核可调参数(或者可能是可调参数集合),其默认值在版本之间发生了变化。
有人对此有经验吗?也许还有更多需要调查的领域?
更新:在这种特殊情况下,该问题已通过服务器供应商 (Dell) 的 BIOS 更新解决。我在这个上拉了很长一段时间的头发。直到我回到基础,并检查了我的供应商的 BIOS 更新。可疑的是,其中一个更新说“在最大性能模式下提高性能”。一旦我升级了 BIOS,CentOS 5 就更快了——一般来说,特别是在我的队列测试和实际生产运行中。