有没有什么干净的方法可以用 Nokogiri 获取文本节点的内容?现在我正在使用
some_node.at_xpath( "//whatever" ).first.content
这对于获取文本来说似乎真的很冗长。
你只想要文字吗?
doc.search('//text()').map(&:text)
也许你不想要所有的空白和噪音。如果您只想要包含单词字符的文本节点,
doc.search('//text()').map(&:text).delete_if{|x| x !~ /\w/}
编辑:看来您只想要单个节点的文本内容:
some_node.at_xpath( "//whatever" ).text
只需寻找文本节点:
require 'nokogiri'
doc = Nokogiri::HTML(<<EOT)
<html>
<body>
<p>This is a text node </p>
<p> This is another text node</p>
</body>
</html>
EOT
doc.search('//text()').each do |t|
t.replace(t.content.strip)
end
puts doc.to_html
哪个输出:
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd">
<html><body>
<p>This is a text node</p>
<p>This is another text node</p>
</body></html>
顺便说一句,您的代码示例不起作用。at_xpath( "//whatever" ).first
是多余的并且会失败。at_xpath
只会找到第一次出现,返回一个节点。first
在这一点上是多余的,如果它可以工作,但它不会因为 Node 没有first
方法。
我有
<data><foo>bar</foo></bar>
,我如何在不做的情况下获得“栏”文本doc.xpath_at( "//data/foo" ).children.first.content
?
假设doc
包含解析的 DOM:
doc.to_xml # => "<?xml version=\"1.0\"?>\n<data>\n <foo>bar</foo>\n</data>\n"
获取第一次出现:
doc.at('foo').text # => "bar"
doc.at('//foo').text # => "bar"
doc.at('/data/foo').text # => "bar"
获取所有事件并取第一个:
doc.search('foo').first.text # => "bar"
doc.search('//foo').first.text # => "bar"
doc.search('data foo').first.text # => "bar"