1
http = Net::HTTP.new("hostname", 80)
http.open_timeout = 300
http.read_timeout = 300

pagereq = lambda {
    http.request(Net::HTTP::Get.new(page, {"User-Agent" => "Mozilla/5.0"})).body }

some_conditions.to_a.each do |n|

    page = "startpage"+n.to_s

    pagereq.call.scan(/criteria1/).each do |m|
        page = "/"+m.to_s
        puts pagereq.call.scan(/criteria2/)
    end

end

我使用此模板从站点收集链接或其他内容。它在每个连接上产生 DNS 解析,这并不好。

我感兴趣的。一次解析主机名,建立连接,进行所有操作,关闭连接。

4

1 回答 1

0

Mechanize 使用持久的 http 连接并更容易获取链接:

require 'mechanize'
@agent = Mechanize.new
@agent.user_agent = 'Mozilla/5.0'
page = @agent.get 'http://www.google.com/'
puts page.links.map &:href
于 2012-05-14T00:43:41.667 回答