我在一个小型集群上使用了一种负载均衡器,它能够在零持续时间的请求(工作节点立即满足的ti 请求)上实现>2000rps。但是,一旦请求停止为零持续时间并开始花费 1 毫秒,性能立即下降 > 10 倍。双向传输的数据是相同的,大小约为 2kb。这肯定与集群饱和或网络吞吐量无关,因为 200rps 的 1ms 请求是非常小的负载,而网络是 10Gbit。此外,负载均衡器和工作节点上的 CPU 负载只有 2-5%。
我想知道这是否与操作系统调度程序或操作系统网络堆栈的某些病态行为有关(对于非常短的交互,存在一些特殊情况行为)。
我该如何诊断原因?哪些 perfcounters 值得关注?使用什么工具或方法?
(以防有人简单地知道我的特定问题的答案,我说的是 MS HPC Server 2008 R2 的“WCF 代理”,在 Hyper-V 上的 Windows Server 2008 R2 上运行)