1

我有与此类似的 HTML:

<div>
    <h4><a href="#">Don't Match Me</a></h4>
    <a href="#">Match Me</a>
    <a href="#">Match Me</a>
    <a href="#">Match Me</a>
</div>

我将如何选择a不在 a 内的所有元素h4?我试过a[not(ancestor::h4)]了,但老实说我不知道​​我在做什么。

另外,作为一个小问题,是否有一个实现 PyQuery 或 BeautifulSoup 的 Scrapy 选择器类?

4

1 回答 1

2

这是您应该使用的 Scrapy 选择器:

hxs.select('//a[not(ancestor::h4)]/text()').extract()
于 2013-01-02T13:51:50.650 回答