visual-c++ - Windows 桌面在繁重的网络 I/O 期间变得瘫痪/Windows 内核仅分配许多 CPU 中的 1 个？

Question

问题：我们在 Windows Server 2012 系统上实现了一个视频录制系统。尽管 CPU 和内存消耗较低，但我们仍面临严重的性能问题。

简短的程序描述：应用程序（VS2005/C++）创建许多网络套接字，每个套接字从以太网网络接收多播 UDP 视频流。对于每个流，应用程序通过调用 WSARecvFrom()（重叠操作）提供接收缓冲区，在 MsgWaitForMultipleObjects() 中等待 Window 的“数据到达”事件，获取数据包，然后在无限循环中再次重复所有操作。对于测试，除了纯套接字 IO 工作之外，为了确保最小的 CPU 和内存消耗，应用程序什么都不做，也不做任何磁盘/文件 IO。应用程序进程被配置为使用机器上所有可用的内核（默认关联设置不变）。

测试运行：测试在两台不同的机器上运行：a）具有 4 个物理内核/8 个超线程的 Windows 7，b）具有 12 个物理内核/24 个超线程的 Windows Server 2012。

两个系统都显示出相同的问题：在配置一定数量的套接字/网络流之前一切正常。进一步增加它们（我们需要）最终使 Windows 桌面瘫痪（鼠标指针，重新绘制）。在这个阶段，总的 CPU 负载仍然非常低（即 10-15%），并且有很多可用内存。但是任务管理器显示了极其单向的 CPU 负载：CPU 0 接近 100%，所有其他 CPU 接近 0%。在任务管理器中更改进程的处理器亲和力没有帮助。

问题 1：看起来 CPU 0 正在做整个内核的网络 IO 工作。有可能吗？

问题2：如果是，有没有办法控制内核对可用CPU的使用？如果是，如何？

问题3：如果没有，是否有任何其他方法可以让Windows将（内核）网络IO工作分配给其他CPU（即通过安装多个网卡，每个网卡只接收网络流的一个子集，并将每个网卡绑定到另一个中央处理器）？

非常感谢任何人的任何提示。

score 0 · Accepted Answer

我不是 Windows 服务器的人，但这听起来像是一个中断问题。这经常发生在高吞吐量系统中，尤其是实时系统中。

背景：

简单地说，对于每个数据包，您的网络接口都会产生一个中断，通知 CPU 它需要处理新到达的数据。接收小数据包的高吞吐量网卡（例如 10Gbps）很容易因这些中断而使 CPU 不堪重负。

为了了解这个问题，让我们做一些数学运算——如果你用 100 字节的数据包使 10G 线路饱和，这意味着（理想情况下）每秒通过线路发送 12,500,000 个数据包。实际上，开销较少；比如说每秒 10,000,000 个数据包 (pps)。您的 3Ghz cpu 每秒产生 3,000,000,000 个时钟。所以它需要每 300 个时钟周期处理一个数据包。这对于通用机器来说是相当困难的。

现在，我不知道您的数据包到达率，也不知道您的平均数据包长度。但是根据您描述的症状，您可能遇到了这个问题。

解决方案

将工作卸载到您的卡上

现代网卡，尤其是高吞吐量网卡，支持各种有用的卸载，例如GRO、TOE等。这些从 CPU 中取出一些与网络相关的工作（例如校验和计算、数据包分段等），并将其放在带有执行它的专用硬件的网卡上。查看您的卡支持的卸载。在 Linux 中，管理卸载是使用名为ethtool的应用程序执行的。由于我从未在 Windows 中玩过卸载，我只能指出我找到的最相关的 Windows 文章的方向，但我无法提供任何基于经验的建议。

使用中断限制。

中断节流是（某些）网卡及其驱动程序的另一种能力，它允许它们限制 CPU 接收的中断数量，本质上是每隔几个数据包中断一次核心，而不是每个数据包一次。

使用多队列网卡，并设置中断亲缘关系。

一些网卡有多个（数据包）队列，因此有多个中断线，每个队列一个。它们使用散列函数在队列之间平均分配传入流量，以 1/8 或 1/16 的线路速率创建（通常）8 或 16 个流。每个流都可以使用中断亲和性绑定到特定的 CPU 内核，并且由于哈希函数是根据 IP 和端口号计算的，并且是确定性的，因此每个 TCP/IP 级别的会话将始终由同一个内核处理。在 Linux 中，设置关联性需要写入/proc/irq/<interrupt number>/smp_affinity. 在 Windows 中，这似乎是这种方式。

visual-c++ - Windows 桌面在繁重的网络 I/O 期间变得瘫痪/Windows 内核仅分配许多 CPU 中的 1 个？

1 回答 1

Related

Reference