web-crawler - 为什么 Google 爬虫不会被 CAPTCHA 阻止？

Question

我在某个特定网站上运行我的爬虫www.example.com。爬虫在大约 100 个条目后被 CAPTCHA 阻止。另一方面，当我进入谷歌并搜索时，site:www.example.com我找到了 100,000 个结果，并且结果被谷歌正确缓存。

我的问题：为什么 Google bot 没有被阻止而我却被阻止了？是因为谷歌使用了数千个不同的 IP 还是有其他技巧？

score 0 · Accepted Answer

一般来说，网站所有者有兴趣从搜索引擎获得流量，因此他们甚至可能将 Google 列入白名单。

顺便说一句，您是否在查询之间使用超时？如果您查询过于频繁，您可能会因为为服务器创建过多负载而被阻止。

1 回答 1