python - 在python中使用lxml解析HTML文档

Question

我刚刚下载了 lxml 来解析损坏的 HTML 文档。我正在阅读 lxml 的文档，但找不到给定 HTML 文档，我们如何使用 lxml 检索文档中的文本。如果有人可以帮助我，我将不胜感激。

score 1 · Accepted Answer

这很简单：

from lxml import html
html_document = ... #Get your document contents here from a file or whatever

tree = html.fromstring(html_document)
text_document = tree.text_content()

如果您只想要特定块的内容（例如 body 块），那么您可以使用 xpath 表达式访问它们：

body_tags = tree.xpath('//body')
if body_tags:
  body = body_tags[0]
  text_document = body.text_content()
else:
  text_document = ''

python - 在python中使用lxml解析HTML文档

1 回答 1

Related

Reference