我看过“如何使用 Ruby 或 Nokogiri 获取页面的原始 HTML 源代码? ”,它使用如下内容:
file = open("index.html")
puts file.read
page = Nokogiri::HTML(file)
但它似乎将读取点移动到文件的末尾,这样 Nokogiri 就无法再读取文件了。如果我交换read
和 Nokogiri 电话:
file = open("index.html")
puts file.read
page = Nokogiri::HTML(file)
该文件不再输出。我希望能够向 Nokogiri 查询它最初使用的 HTML,这样我就可以对原始源进行自己的额外解析。理想情况下,我想要类似的东西
file = open("index.html")
page = Nokogiri::HTML(file)
raw_html = page.html
注意:我也试过page.to_html
,但它似乎稍微改变了格式。