HTML 中确实存在错误,您可以尝试一下doc.errors
:
require 'nokogiri'
require 'open-uri'
url = "http://au.finance.yahoo.com/q/ta?s=ANZ.AX&t=2y"
doc = Nokogiri::HTML(open(url))
doc.errors
#=> [#<Nokogiri::XML::SyntaxError: htmlParseEntityRef: no name>, #<Nokogiri::XML::SyntaxError: htmlParseEntityRef: no name>, #<Nokogiri::XML::SyntaxError: htmlParseEntityRef: no name>, #<Nokogiri::XML::SyntaxError: htmlParseEntityRef: no name>, #<Nokogiri::XML::SyntaxError: htmlParseEntityRef: no name>, #<Nokogiri::XML::SyntaxError: htmlParseEntityRef: no name>, #<Nokogiri::XML::SyntaxError: htmlParseEntityRef: expecting ';'>, #<Nokogiri::XML::SyntaxError: htmlParseEntityRef: expecting ';'>, #<Nokogiri::XML::SyntaxError: htmlParseEntityRef: no name>, #<Nokogiri::XML::SyntaxError: htmlParseEntityRef: no name>, #<Nokogiri::XML::SyntaxError: htmlParseEntityRef: expecting ';'>, #<Nokogiri::XML::SyntaxError: htmlParseEntityRef: no name>, #<Nokogiri::XML::SyntaxError: htmlParseEntityRef: no name>, #<Nokogiri::XML::SyntaxError: htmlParseEntityRef: no name>, #<Nokogiri::XML::SyntaxError: Tag nobr invalid>, #<Nokogiri::XML::SyntaxError: Tag nobr invalid>, #<Nokogiri::XML::SyntaxError: Tag nobr invalid>, #<Nokogiri::XML::SyntaxError: Element script embeds close tag>, #<Nokogiri::XML::SyntaxError: Element script embeds close tag>, #<Nokogiri::XML::SyntaxError: Element script embeds close tag>, #<Nokogiri::XML::SyntaxError: Element script embeds close tag>, #<Nokogiri::XML::SyntaxError: Element script embeds close tag>, #<Nokogiri::XML::SyntaxError: Element script embeds close tag>, #<Nokogiri::XML::SyntaxError: Element script embeds close tag>, #<Nokogiri::XML::SyntaxError: Element script embeds close tag>, #<Nokogiri::XML::SyntaxError: Element script embeds close tag>, #<Nokogiri::XML::SyntaxError: Element script embeds close tag>]
但是,这与您遇到的错误无关。您正在尝试转换doc[1..20]
为字符串,但调用 Nokogiri 文档的元素没有任何意义,因为该文档不是数组。因此,它们都是nil
:
doc[1]
#=> nil
doc[2]
#=> nil
(对任何其他 URL 执行相同操作,您将获得完全相同的结果。)
如果您想要的是文档的 HTML,则可以使用以下to_html
方法获得:
doc.to_html
#=> "<!DOCTYPE html PUBLIC \"-//W3C//DTD HTML 4.01//EN\" \"http://www.w3.org/TR/html4/strict.dtd\">\n<html>...