ruby - 使用 open-uri 和 nokogiri 在完全加载之前读取 HTML

Question

我正在使用open-uri和nokogiriruby 来做一些简单的网络爬虫。存在一个问题，有时 html 在完全加载之前就被读取了。在这种情况下，我无法获取加载图标和导航栏以外的任何内容。告诉open-uri或nokogiri等待页面完全加载的最佳方法是什么？

目前我的脚本看起来像：

require 'nokogiri'
require 'open-uri'

url = "https://www.the-page-i-wanna-crawl.com"
doc = Nokogiri::HTML(open(url, ssl_verify_mode: OpenSSL::SSL::VERIFY_NONE)) 
puts doc.at_css("h2").text

score 13 · Accepted Answer

你描述的不可能。的结果open只会在方法返回完整值HTML之后传递给。open

我怀疑页面本身使用 AJAX 加载其内容，正如评论中所建议的那样，在这种情况下，您可以使用 Watir 使用浏览器获取页面

require 'nokogiri'
require 'watir'

browser = Watir::Browser.new
browser.goto 'https://www.the-page-i-wanna-crawl.com'

doc = Nokogiri::HTML.parse(browser.html)

不过，这可能会打开一个浏览器窗口。

ruby - 使用 open-uri 和 nokogiri 在完全加载之前读取 HTML

1 回答 1

Related

Reference