1

我的代码如下所示:

file = Nokogiri::XML(File.open('file.xml'))
test = file.xpath("//title") #all <title> elements in xml file

然后当我尝试:

puts test.uniq

我收到以下错误:

 undefined method `uniq' for #<Nokogiri::XML::NodeSet:0x000000011b8bf8> 

test不是数组?如果不是,我该如何制作它?

否则,如何仅从test数组中获取唯一值?

4

2 回答 2

7

测试不是数组吗?如果不是,我该如何制作它?

test将是NodeSet

Nokogiri::XML('<xml><foo/></xml>').xpath('//foo').class
=> Nokogiri::XML::NodeSet

foo = Nokogiri::XML('<xml><foo/></xml>').xpath('//foo')
=> [#<Nokogiri::XML::Element:0x8109a674 name="foo">]

foo.is_a? Array
=> false

foo.is_a? Enumerable
=> true

要将其转换为数组,请使用to_a

foo.respond_to? :to_a
=> true

但是,这不是必需的,因为它还响应map,each以及我们在迭代 Array 时期望的所有正常事物,因为它包含Enumerablemap,根据定义,自动返回一个数组,因此您在评论和问题中想知道的转换。

foo.methods.sort - Object.methods
=> [:%, :&, :+, :-, :/, :<<, :[], :add_class, :after, :all?, :any?, :at, :at_css, :at_xpath, :attr, :attribute, :before, :children, :chunk, :collect, :collect_concat, :count, :css, :cycle, :delete, :detect, :document, :document=, :drop, :drop_while, :each, :each_cons, :each_entry, :each_slice, :each_with_index, :each_with_object, :empty?, :entries, :filter, :find, :find_all, :find_index, :first, :flat_map, :grep, :group_by, :index, :inject, :inner_html, :inner_text, :last, :length, :map, :max, :max_by, :member?, :min, :min_by, :minmax, :minmax_by, :none?, :one?, :partition, :pop, :push, :reduce, :reject, :remove, :remove_attr, :remove_class, :reverse, :reverse_each, :search, :select, :set, :shift, :size, :slice, :slice_before, :sort, :sort_by, :take, :take_while, :text, :to_a, :to_ary, :to_html, :to_xhtml, :to_xml, :unlink, :wrap, :xpath, :zip, :|]

我怀疑uniq未实施的原因是很难弄清楚如何测试唯一性。一个非常简单的标签,例如:

<div class="foo" id="bar">

在功能上与以下内容相同:

<div id="bar" class="foo">

但明显的to_s测试将失败,因为它们与字符串相等测试不匹配。

标签必须在运行中进行规范化以将它们的参数放入相同的顺序,然后转换为字符串,但是如果class参数"foo1 foo2"在第一个标签和"foo2 foo1"第二个标签中怎么办?代码是否uniq必须深入研究特定参数并重新排序?而且,如果标签是一个容器div怎么办?测试中是否也应考虑节点的子节点uniq

我认为这是我们大多数人会很快回避的一罐蠕虫,而那些试图定义的uniq人会学到关于兔子洞的非常宝贵的一课。相反,您可以自由定义uniq适合您的特定应用程序,因此它对您有意义。我认为这对 Nokogiri 的作者来说是一个很棒的设计决定。

于 2013-06-06T20:22:35.023 回答
1

请试试 -

puts test.map(&:text).uniq

查看一个示例代码来演示它是如何工作的:

require "nokogiri"

doc = Nokogiri::HTML(<<-EOF) 
<a class = "foo" href = "https://example.com"> Click here </a>
EOF

node = 2.times.map{|n| n = Nokogiri::XML::Node.new('title', doc); n.content = "xxx";n }
node # => [#<Nokogiri::XML::Element:0x4637712 name="title" children=[#<Nokogiri::XML::Text:0x4636efc "xxx">]>, #<Nokogiri::XML::Element:0x4637690 name="title" children=[#<Nokogiri::XML::Text:0x4636218 "xxx">]>]


nodeset = Nokogiri::XML::NodeSet.new(doc,node)
nodeset # => [#<Nokogiri::XML::Element:0x4637712 name="title" children=[#<Nokogiri::XML::Text:0x4636efc "xxx">]>, #<Nokogiri::XML::Element:0x4637690 name="title" children=[#<Nokogiri::XML::Text:0x4636218 "xxx">]>]

nodeset.map{|i| i.text }.uniq # => ["xxx"]
于 2013-06-06T19:44:18.340 回答