python - 使用 lxml.etree 读取元素中的文本

Question

我正在使用 lxml 库的 Python 版本。我目前正在尝试解析表格中的文本，但遇到了一些文本是链接的问题。

例如，其中一个单元格可能如下所示：

<td>
    Can I kick it, <a>to all the people</a> who can quest like a <a>tribe</a> does
</td>

说在解析 html 之后， td 元素存储为foo. 然后foo.text不会显示整个文本，只显示不是链接的部分。此外，如果我找到链接文本使用[i.text for i in foo.getchildren()]我不再知道放置非链接文本和链接文本的顺序。

有没有简单的方法来解决这个问题？

score 1 · Accepted Answer

在搜索了一个小时后，在发布此问题后的 2 分钟内，我找到了解决方案。

使用该方法foo.text_content()，这将显示所需的内容。

1 回答 1