3

我正在使用返回多个值的 Nokogiri 运行脚本。我的印象是(并且被多个消息来源保证)结果应该是数组的形式。相反,我得到了一个难看的字符串。这是代码

require 'nokogiri'
require 'open-uri'
require 'spreadsheet'

profile_page_scraper = Nokogiri::HTML(open('http://www.crunchbase.com/company/facebook'))       
puts profile_page_scraper.css('div.col1_content td.td_left').text

这会返回:

PublicDateRaisedPost IPO ValuationWebsiteBlogTwitterCategoryEmployeesFoundedDescription

我知道我可以用它map来快速解决这个问题,但我很困惑为什么它没有返回一个数组。从理论上讲,它应该返回如下内容:

["Public", "Date", "Raised" ... "Description"]

任何想法为什么这不起作用?

4

2 回答 2

7

NodeSet#text总是返回一个字符串(否则它可能会被调用NodeSet#texts)。Nokogiri 文档不是很好,如有疑问请查看源代码:

  # lib/nokogiri/xml/node_set.rb
  def inner_text
    collect{|j| j.inner_text}.join('')
  end
  alias :text :inner_text

要获取文本数组:nodes.map(&:text)

于 2012-11-02T17:39:40.723 回答
1

css方法返回 的实例Nokogiri::XML::NodeSet,其中包括Enumerable

require 'nokogiri'
require 'open-uri'

doc = Nokogiri::HTML(open('http://www.crunchbase.com/company/facebook'))  
nodes = doc.css('div.col1_content td.td_left')
nodes.class.ancestors
# => [Nokogiri::XML::NodeSet, Enumerable, Object, Kernel, BasicObject]

因此,您可以将所有标准迭代器与content此结果集中每个元素的属性结合使用。例如:

nodes.each { |n| puts n.content }
于 2012-11-02T17:40:30.710 回答