python - div 文本但排除一些标签文本

Question

我正在尝试从 div 中获取所有文本，但想在某些标签中排除某些文本。像所有文本一样，<header><h2>some text</h2><header>也可能排除 a 的文本<footer>。

我已经有类似的东西：

tree = <some html> 
XpathArticleSummary = "string(div)"
divs = tree.xpath(XpathArticleSummary)

我想要的是这样的：

XpathArticleSummary = "string(div[not(header|footer)])"

但这当然行不通:)

有没有办法排除？

score 0 · Accepted Answer

由于您使用的是 lxml 这个 xpath 应该可以工作：

div//text()[not(parent::footer or parent::header)]

它应该给你一个文本节点列表。

1 回答 1