7

现在我正在我的电脑上运行一个抓取程序。它的规模很大,不幸的是,正因为如此,我的 IP 地址已被我需要抓取的网站禁止访问。有没有办法在 Ruby 中,或者甚至只是以一种简单的方式,我可以切换我的 IP 地址,这样我就可以被允许回到这个站点进行抓取,或者我运气不好,我可能不得不求助于其他解决方案。这是一个 403 禁止错误,无论我使用 nokogiri 和我的用户代理是 ruby​​ 有什么价值,谢谢。

4

1 回答 1

14

您可以通过代理连接,如果您有代理地址列表,那么您可以告诉 ruby​​ 每 x 分钟更改一次代理,这将导致网站认为您拥有的 IP 发生变化。这是通过代理抓取谷歌搜索结果的代码,使用代理列表只需扩展代码一点。

require 'rubygems'
require 'mechanize'

agent = Mechanize.new
agent.set_proxy '78.186.178.153', 8080
page = agent.get('http://www.google.com/')

google_form = page.form('f')
google_form.q = 'new york city council'

page = agent.submit(google_form, google_form.buttons.first)

page.links.each do |link|
    if link.href.to_s =~/url.q/
        str=link.href.to_s
        strList=str.split(%r{=|&}) 
        url=strList[1] 
        puts url
    end 
end
于 2013-07-05T14:10:39.917 回答