1

我们在 AWS EC2 实例上设置了网络输入/输出警报。当实例热运行时(响应时间较慢 - CPU 徘徊在 85% 左右),我注意到我们的网络输入/输出低于 2.0E7 字节。

当我们升级和转移东西并将我们的 CPU 降低到 30% 左右时,我们现在似乎更频繁地被爬网。

每当我们修改实例类型时,我都会注意到一些重要的短期峰值。我怀疑爬虫会做这样的事情,检测响应时间,从而决定它们的爬取频率。

我确实意识到我可以在 robots.txt 中设置抓取速度 - 但我没有在那里设置任何限制。

当然可能还有其他因素,但我想知道这是否有意义?

4

1 回答 1

2

Google 的文档没有具体说明他们会检查您的响应时间,但我使用 Googlebot 和其他爬虫的经验表明它确实使您网站的响应时间生效。我知道我的爬虫做到了。我的爬取率基于我正在爬取的网站的响应时间。

于 2013-10-28T20:11:45.410 回答