我的 html 看起来像这样:
<h1>Text 1</h1>
<div>Some info</div>
<h1>Text 2</h1>
<div>...</div>
我了解如何使用 h1 中的 scrapy 信息进行提取:
content.select("//h1[contains(text(),'Text 1')]/text()").extract()
但我的目标是从<div>Some info</div>
我的问题是我没有关于 div 的任何具体信息。据我所知,它正好在<h1>Text 1</h1>
. 我可以使用选择器在树中获取 NEXT 元素吗?元素,位于 DOM 树中的同一级别?
就像是:
a = content.select("//h1[contains(text(),'Text 1')]/text()")
a.next("//div/text()").extract()
Some info