现在我正在我的电脑上运行一个抓取程序。它的规模很大,不幸的是,正因为如此,我的 IP 地址已被我需要抓取的网站禁止访问。有没有办法在 Ruby 中,或者甚至只是以一种简单的方式,我可以切换我的 IP 地址,这样我就可以被允许回到这个站点进行抓取,或者我运气不好,我可能不得不求助于其他解决方案。这是一个 403 禁止错误,无论我使用 nokogiri 和我的用户代理是 ruby 有什么价值,谢谢。
问问题
4280 次
1 回答
14
您可以通过代理连接,如果您有代理地址列表,那么您可以告诉 ruby 每 x 分钟更改一次代理,这将导致网站认为您拥有的 IP 发生变化。这是通过代理抓取谷歌搜索结果的代码,使用代理列表只需扩展代码一点。
require 'rubygems'
require 'mechanize'
agent = Mechanize.new
agent.set_proxy '78.186.178.153', 8080
page = agent.get('http://www.google.com/')
google_form = page.form('f')
google_form.q = 'new york city council'
page = agent.submit(google_form, google_form.buttons.first)
page.links.each do |link|
if link.href.to_s =~/url.q/
str=link.href.to_s
strList=str.split(%r{=|&})
url=strList[1]
puts url
end
end
于 2013-07-05T14:10:39.917 回答