我无法弄清楚这个网站出现瓶颈的原因是什么,一旦达到大约 400 个用户,响应时间就会非常糟糕。该站点位于 Google 计算引擎上,使用实例组,具有网络负载平衡。我们用sailjs 创建了这个项目。
我一直在使用 kubernetes 对 Google 容器引擎进行负载测试,运行 locust.py 脚本。
其中一项测试的主要结果是:
RPS : 30
Spawn rate: 5 p/s
TOTALS USERS: 1000
AVG(res time): 27500!! (27,5 seconds)
最初的响应时间很好,不到一秒,但是当它开始达到大约 400 个用户时,响应时间开始大幅增加。
我已经测试了可能影响响应时间的明显因素,结果如下:
计算引擎实例(2 个标准 n2,200gb 磁盘,内存:每个实例 7.5gb):
Only about 20% cpu utilization used
Outgoing network bytes: 340k bytes/sec
Incoming network bytes: 190k bytes/sec
Disk operations: 1 op/sec
Memory: below 10%
MySQL:
Max_used_connections : 41 (below total possible)
Connection errors: 0
MySQL 的所有其他结果似乎也很好,没有理由造成瓶颈。
我为一个新的sailjs创建的项目尝试了相同的测试,它做得更好,但仍然有糟糕的结果,大约2000个用户的5秒恢复时间。
我还应该测试什么?瓶颈可能是什么?