我正在抓取一个 html 文档,其结构一直在变化。Css 类名甚至会改变,所以我不能依赖它。但是,有一件事永远不会改变,该值始终包含在子树中,如下所示:
<span>
<span>
<span>wanted value</span>
<span></span>wanted value
</span>
</span>
这可以表示为 XPath 表达式吗?
它不应该匹配:
<span>
<span>
<span> 1, one too little </span>
<span> 2 </span>
<span> 3, one too many </span>
<span> 4, two too many </span>
</span>
</span>
我计划使用 Python 的 lxml 来做到这一点。