0

我正在使用 lxml 库的 Python 版本。我目前正在尝试解析表格中的文本,但遇到了一些文本是链接的问题。

例如,其中一个单元格可能如下所示:

<td>
    Can I kick it, <a>to all the people</a> who can quest like a <a>tribe</a> does
</td>

说在解析 html 之后, td 元素存储为foo. 然后foo.text不会显示整个文本,只显示不是链接的部分。此外,如果我找到链接文本使用[i.text for i in foo.getchildren()]我不再知道放置非链接文本和链接文本的顺序。

有没有简单的方法来解决这个问题?

4

1 回答 1

1

在搜索了一个小时后,在发布此问题后的 2 分钟内,我找到了解决方案。

使用该方法foo.text_content(),这将显示所需的内容。

于 2013-09-23T00:38:16.137 回答