我们在 AWS EC2 实例上设置了网络输入/输出警报。当实例热运行时(响应时间较慢 - CPU 徘徊在 85% 左右),我注意到我们的网络输入/输出低于 2.0E7 字节。
当我们升级和转移东西并将我们的 CPU 降低到 30% 左右时,我们现在似乎更频繁地被爬网。
每当我们修改实例类型时,我都会注意到一些重要的短期峰值。我怀疑爬虫会做这样的事情,检测响应时间,从而决定它们的爬取频率。
我确实意识到我可以在 robots.txt 中设置抓取速度 - 但我没有在那里设置任何限制。
当然可能还有其他因素,但我想知道这是否有意义?