1

我在某个特定网站上运行我的爬虫www.example.com。爬虫在大约 100 个条目后被 CAPTCHA 阻止。另一方面,当我进入谷歌并搜索时,site:www.example.com我找到了 100,000 个结果,并且结果被谷歌正确缓存。

我的问题:为什么 Google bot 没有被阻止而我却被阻止了?是因为谷歌使用了数千个不同的 IP 还是有其他技巧?

4

1 回答 1

0

一般来说,网站所有者有兴趣从搜索引擎获得流量,因此他们甚至可能将 Google 列入白名单。

顺便说一句,您是否在查询之间使用超时?如果您查询过于频繁,您可能会因为为服务器创建过多负载而被阻止。

于 2012-08-17T16:28:41.037 回答