2

我想用 Nokogiri 遍历一些 HTML 文档。获取 XML 对象后,我希望 Nokogiri 使用的最后一个 URL 获取文档作为我的 JSON 响应的一部分。

def url = "http://ow.ly/hh8ri"     
doc = Nokogiri::HTML(open(url)
...

Nokogiri 在内部将其重定向到http://www.mp.rs.gov.br/imprensa/noticias/id30979.html,但我想访问它。

我想知道“doc”对象是否可以访问某些 URL 作为属性或其他东西。有人知道解决方法吗?

顺便说一句,我想要完整的 URL,因为我正在遍历 HTML 来查找<img>标签,有些标签有相对的标签,例如:“/media/image/image.png”,然后我使用以下方法调整一些:

URI.join(url, relative_link_url).to_s

图片网址应为:

http://www.mp.rs.gov.br/media/imprensa/2013/01/30979_260_260__trytr.jpg 

代替:

http://ow.ly/hh8ri/media/imprensa/2013/01/30979_260_260__trytr.jpg

编辑:想法

class Scraper < Nokogiri::HTML::Document
  attr_accessor :url

  class << self

    def new(url)
        html = open(url, ssl_verify_mode: OpenSSL::SSL::VERIFY_NONE)
        self.parse(html).tap do |d|
            url = URI.parse(url)
            response = Net::HTTP.new(url.host, url.port)
            head = response.start do |r|
              r.head url.path
            end 
            d.url = head['location']
        end
    end
  end
end
4

3 回答 3

3

使用机械化。URL 将始终转换为绝对 URL:

require 'mechanize'
agent = Mechanize.new
page = agent.get 'http://ow.ly/hh8ri'
page.images.map{|i| i.url.to_s}
#=> ["http://www.mp.rs.gov.br/images/imprensa/barra_area.gif", "http://www.mp.rs.gov.br/media/imprensa/2013/01/30979_260_260__trytr.jpg"]
于 2013-01-31T05:02:24.267 回答
2

因为您的示例使用的是 OpenURI,所以这是要问的代码,而不是 Nokogiri。Nokogiri 不知道内容来自哪里。

OpenURI 可以很容易地告诉你:

require 'open-uri'

starting_url = 'http://www.example.com'
final_uri = nil

puts "Starting URL: #{ starting_url }"

io = open(starting_url) { |io| final_uri = io.base_uri }
doc = io.read

puts "Final URL: #{ final_uri.to_s }"

哪个输出:

Starting URL: http://www.example.com
Final URL: http://www.iana.org/domains/example

base_uri记录在OpenURI::Meta模块中。

于 2013-02-04T04:27:34.433 回答
1

我最近遇到了完全相同的问题。我所做的是创建一个继承自的类,Nokogiri::HTML::Document然后只重写new类方法来解析文档,然后将 url 保存在带有访问器的实例变量中:

require 'nokogiri'
require 'open-uri'

class Webpage < Nokogiri::HTML::Document
  attr_accessor :url

  class << self

    def new(url)
      html = open(url)
      self.parse(html).tap do |d|
        d.url = url
      end
    end
  end
end

然后您可以创建一个新Webpage的,它可以访问您使用的所有常规方法Nokogiri::HTML::Document

w = Webpage.new("http://www.google.com")
w.url
#=> "http://www.google.com"
w.at_css('title')
#=> [#<Nokogiri::XML::Element:0x4952f78 name="title" children=[#<Nokogiri::XML::Text:0x4952cb2 "Google">]>]

如果您有一些从图像标签中获得的相对 url,则可以通过将访问器的返回值传递给以下方式使其成为绝对urlURL URI.join

relative_link_url = "/media/image/image.png"
=> "/media/image/image.png"
URI.join(w.url, relative_link_url).to_s
=> "http://www.google.com/media/image/image.png"

希望有帮助。

ps这个问题的标题很误导人。更多类似“访问 Nokogiri HTML 文档的 URL”的内容会更清晰。

于 2013-01-31T03:47:08.630 回答