0

我正在抓取yahoo搜索结果,但我得到了502 => Net::HTTPBadGateway. 究竟是什么导致了错误?这是否意味着yahoo检测到我的机器人并禁止了我的 ip?

4

2 回答 2

0

将 Response 对象打印到您的控制台(我为此推荐 awesome_print),

但是....搜索引擎对数据包形状、节流或阻止爬虫完全是例行公事。我不知道雅虎是否这样做,但谷歌肯定会

你可以考虑http://commoncrawl.org

于 2012-08-02T11:33:54.820 回答
0

是的,他们正在阻止您的机器人,所有大型搜索引擎都有防御措施来防止抓取结果页面。然而,谷歌和必应都提供了一个免费的搜索 API,你可以用它来喂你的机器人。

于 2012-08-02T18:35:05.330 回答