-1

我想获取网页的全文,不幸的是我的刮刀也在捕获 css 代码,我如何完成下面的代码以删除 css 样式代码:

page = " ".join(response.xpath('//body//descendant-or-self::*[not(self::script)]/text()').extract())
4

1 回答 1

1

尝试

//body//descendant-or-self::*[not(self::script or self::style)]

我测试过,它可以工作,它不包括 STYLE 和 SCRIPT 标签

于 2019-01-29T10:31:59.880 回答