python - lxml - 忽略
html 中的标签

Question

我使用 lxml 在 Python 中编写了一个小型 html 解析器。它非常有用，但我有一个问题。

我有以下代码：

tags = doc.xpath('//table//tr/td[@align="right"]/b')
for tag in tags:
    print(x.text.strip())

它工作正常。但是如果元素 内部有标签，像这样：

<b> first-half <br>
    second-half </b>

此代码只会打印first-half到标签中。

即使有 标签，如何获取所有文本？

谢谢。

score 5 · Accepted Answer

5

用于text_content()提取标签内的所有非标记文本。替换x.text为x.text_content()。

于 2013-02-28T21:12:35.767 回答

python - lxml - 忽略html 中的标签