5

我使用 lxml 在 Python 中编写了一个小型 html 解析器。它非常有用,但我有一个问题。

我有以下代码:

tags = doc.xpath('//table//tr/td[@align="right"]/b')
for tag in tags:
    print(x.text.strip())

它工作正常。但是如果元素<br>内部有标签<b>,像这样:

<b> first-half <br>
    second-half </b>

此代码只会打印first-half<b>标签中。

<b>即使有<br>标签,如何获取所有文本?

谢谢。

4

1 回答 1

5

用于text_content()提取标签内的所有非标记文本。替换x.textx.text_content()

于 2013-02-28T21:12:35.767 回答