Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在抓取yahoo搜索结果,但我得到了502 => Net::HTTPBadGateway. 究竟是什么导致了错误?这是否意味着yahoo检测到我的机器人并禁止了我的 ip?
yahoo
502 => Net::HTTPBadGateway
将 Response 对象打印到您的控制台(我为此推荐 awesome_print),
但是....搜索引擎对数据包形状、节流或阻止爬虫完全是例行公事。我不知道雅虎是否这样做,但谷歌肯定会
你可以考虑http://commoncrawl.org
是的,他们正在阻止您的机器人,所有大型搜索引擎都有防御措施来防止抓取结果页面。然而,谷歌和必应都提供了一个免费的搜索 API,你可以用它来喂你的机器人。