我正在使用open-uri
和nokogiri
ruby 来做一些简单的网络爬虫。存在一个问题,有时 html 在完全加载之前就被读取了。在这种情况下,我无法获取加载图标和导航栏以外的任何内容。告诉open-uri
或nokogiri
等待页面完全加载的最佳方法是什么?
目前我的脚本看起来像:
require 'nokogiri'
require 'open-uri'
url = "https://www.the-page-i-wanna-crawl.com"
doc = Nokogiri::HTML(open(url, ssl_verify_mode: OpenSSL::SSL::VERIFY_NONE))
puts doc.at_css("h2").text