ruby - CSS 与 XPath 在 Nokogiri 中的位置不匹配

Question

我正在尝试从 HTML 页面获取一些内容。在这里，我将 HTML 分成几个部分，并使用 Nokogiri 解析每个子部分。

当我使用 CSS 选择器时，它与 XPath 选择器的子部分不匹配：

#!/usr/bin/ruby
require 'nokogiri'

# construct simple HTML
doc = Nokogiri::HTML('<div><h3>Heading</h3></div>')
puts doc, "\n"

# get the div
div = doc.at_css('div')
puts div, "\n"

# get heading using XPath and CSS. CSS doesn't match!
puts "XPath: ", div.at_xpath('//div/h3[1]') || "no match"
puts "CSS: ", div.at_css('div > h3') || "no match"

输出：

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" 
    "http://www.w3.org/TR/REC-html40/loose.dtd">
<html><body><div><h3>Heading</h3></div></body></html>

<div><h3>Heading</h3></div>

XPath: 
<h3>Heading</h3>
CSS:
no match

如您所见，CSS 部分没有匹配项。那么为什么表达式div > h3不匹配呢？我应该Nokogiri::HTML为变量创建一个新div变量（如果我将它用于具有许多子部分的大型文档，可能会出现性能问题）？或者用另一个元素包装它，这样它就<div>不是根元素？

score 1 · Accepted Answer

//在 xpath 中，来自 root的意思；xpath 表达式//...从根目录中查找元素，即使您发出div.at_xpath..

另一方面，div.at_css从div标签中查找；没有匹配。

div > h3(css) 与//div/h3[1](xpath) 不同。

div > h3(css) 类似于.//div/h3[1](xpath)。

ruby - CSS 与 XPath 在 Nokogiri 中的位置不匹配

1 回答 1

Related

Reference