0

我刚刚下载了 lxml 来解析损坏的 HTML 文档。我正在阅读 lxml 的文档,但找不到给定 HTML 文档,我们如何使用 lxml 检索文档中的文本。如果有人可以帮助我,我将不胜感激。

4

1 回答 1

1

这很简单:

from lxml import html
html_document = ... #Get your document contents here from a file or whatever

tree = html.fromstring(html_document)
text_document = tree.text_content()

如果您只想要特定块的内容(例如 body 块),那么您可以使用 xpath 表达式访问它们:

body_tags = tree.xpath('//body')
if body_tags:
  body = body_tags[0]
  text_document = body.text_content()
else:
  text_document = ''
于 2012-08-22T13:12:35.480 回答