0

我正在尝试使用 OpenUri 和 Nokogiri 从 HTML 源中获取样式内容。

require 'open-uri'
require 'nokogiri'
require 'css_parser'

url  = open('https://google.com')
html = Nokogiri::HTML(url)
css  = CssParser::Parser.new
css.add_block!(html.search('style#gstyle').text)

这会返回nil,但 Google 页面的 HTML 包含id="gstyle". 这是输出结果的图像:

在此处输入图像描述

  1. 为什么在本例中的 Google HTML 页面与 OpenUri 返回的页面不同?
  2. 我怎样才能找到这个标签style#gstyle
  3. 为什么 Firebug 能看到正确的 HTML 文档而 OpenUri 没有?
4

1 回答 1

5

谷歌根据代理字符串为不同的客户端呈现不同的页面,代理字符串是服务器关于哪种客户端正在访问页面的唯一线索。open-uri默认情况下将自己声明为“Ruby”。如果您使用明显自动化的脚本进行访问,您将不会获得与使用浏览器访问相同的页面。

尝试这个:

url = open('https://google.com', "User-Agent" => "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36")
于 2015-12-21T03:42:40.080 回答