3

问题:我们在 Windows Server 2012 系统上实现了一个视频录制系统。尽管 CPU 和内存消耗较低,但我们仍面临严重的性能问题。

简短的程序描述:应用程序(VS2005/C++)创建许多网络套接字,每个套接字从以太网网络接收多播 UDP 视频流。对于每个流,应用程序通过调用 WSARecvFrom()(重叠操作)提供接收缓冲区,在 MsgWaitForMultipleObjects() 中等待 Window 的“数据到达”事件,获取数据包,然后在无限循环中再次重复所有操作。对于测试,除了纯套接字 IO 工作之外,为了确保最小的 CPU 和内存消耗,应用程序什么都不做,也不做任何磁盘/文件 IO。应用程序进程被配置为使用机器上所有可用的内核(默认关联设置不变)。

测试运行:测试在两台不同的机器上运行:a)具有 4 个物理内核/8 个超线程的 Windows 7,b)具有 12 个物理内核/24 个超线程的 Windows Server 2012。

两个系统都显示出相同的问题:在配置一定数量的套接字/网络流之前一切正常。进一步增加它们(我们需要)最终使 Windows 桌面瘫痪(鼠标指针,重新绘制)。在这个阶段,总的 CPU 负载仍然非常低(即 10-15%),并且有很多可用内存。但是任务管理器显示了极其单向的 CPU 负载:CPU 0 接近 100%,所有其他 CPU 接近 0%。在任务管理器中更改进程的处理器亲和力没有帮助。

问题 1:看起来 CPU 0 正在做整个内核的网络 IO 工作。有可能吗?

问题2:如果是,有没有办法控制内核对可用CPU的使用?如果是,如何?

问题3:如果没有,是否有任何其他方法可以让Windows将(内核)网络IO工作分配给其他CPU(即通过安装多个网卡,每个网卡只接收网络流的一个子集,并将每个网卡绑定到另一个中央处理器) ?

非常感谢任何人的任何提示。

4

1 回答 1

0

我不是 Windows 服务器的人,但这听起来像是一个中断问题。这经常发生在高吞吐量系统中,尤其是实时系统中。

背景:

简单地说,对于每个数据包,您的网络接口都会产生一个中断,通知 CPU 它需要处理新到达的数据。接收小数据包的高吞吐量网卡(例如 10Gbps)很容易因这些中断而使 CPU 不堪重负。

为了了解这个问题,让我们做一些数学运算——如果你用 100 字节的数据包使 10G 线路饱和,这意味着(理想情况下)每秒通过线路发送 12,500,000 个数据包。实际上,开销较少;比如说每秒 10,000,000 个数据包 (pps)。您的 3Ghz cpu 每秒产生 3,000,000,000 个时钟。所以它需要每 300 个时钟周期处理一个数据包。这对于通用机器来说是相当困难的。

现在,我不知道您的数据包到达率,也不知道您的平均数据包长度。但是根据您描述的症状,您可能遇到了这个问题。

解决方案

  1. 将工作卸载到您的卡上

现代网卡,尤其是高吞吐量网卡,支持各种有用的卸载,例如GROTOE等。这些从 CPU 中取出一些与网络相关的工作(例如校验和计算、数据包分段等),并将其放在带有执行它的专用硬件的网卡上。查看您的卡支持的卸载。在 Linux 中,管理卸载是使用名为ethtool的应用程序执行的。由于我从未在 Windows 中玩过卸载,我只能指出我找到的最相关的 Windows 文章的方向,但我无法提供任何基于经验的建议。

  1. 使用中断限制

中断节流是(某些)网卡及其驱动程序的另一种能力,它允许它们限制 CPU 接收的中断数量,本质上是每隔几个数据包中断一次核心,而不是每个数据包一次。

  1. 使用多队列网卡,并设置中断亲缘关系。

一些网卡有多个(数据包)队列,因此有多个中断线,每个队列一个。它们使用散列函数在队列之间平均分配传入流量,以 1/8 或 1/16 的线路速率创建(通常)8 或 16 个流。每个流都可以使用中断亲和性绑定到特定的 CPU 内核,并且由于哈希函数是根据 IP 和端口号计算的,并且是确定性的,因此每个 TCP/IP 级别的会话将始终由同一个内核处理。在 Linux 中,设置关联性需要写入/proc/irq/<interrupt number>/smp_affinity. 在 Windows 中,似乎是这种方式。

于 2014-12-21T10:16:11.070 回答