6

我使用Nokogiri如下:

require 'nokogiri'
require 'open-uri'

# Get a Nokogiri::HTML::Document for the page we’re interested in...

doc = Nokogiri::HTML(open('http://www.google.com/search?q=sparklemotion'))

但我的不好,由于公司防火墙可能是,我收到错误:

C:/Ruby193/lib/ruby/1.9.1/net/http.rb:762:in `initialize': getaddrinfo: No such
host is known.  (SocketError)

因此,我认为我将使用selenium-webdriver导航和nokogiri处理网页源html

require "rubygems"
require "selenium-webdriver"

driver = Selenium::WebDriver.for :firefox
driver.get "http://www.google.com/search?q=sparklemotion"

那么在这里我将如何将网页内容(html)提供给nokogiri

请在这里给我建议。

4

1 回答 1

13

您可以使用以下page_source方法从 selenium-webdriver 获取页面的源代码:

driver.page_source

所以你的脚本可能是:

require 'selenium-webdriver'
require 'nokogiri'

driver = Selenium::WebDriver.for :firefox
driver.get "http://www.google.com/"

doc = Nokogiri::HTML(driver.page_source)
# Do whatever with nokogiri

也就是说,我不知道您为什么要使用 nokogiri 而不仅仅是 selenium-webdriver。

于 2013-01-23T21:08:04.403 回答