我刚刚下载了 lxml 来解析损坏的 HTML 文档。我正在阅读 lxml 的文档,但找不到给定 HTML 文档,我们如何使用 lxml 检索文档中的文本。如果有人可以帮助我,我将不胜感激。
问问题
256 次
1 回答
1
这很简单:
from lxml import html
html_document = ... #Get your document contents here from a file or whatever
tree = html.fromstring(html_document)
text_document = tree.text_content()
如果您只想要特定块的内容(例如 body 块),那么您可以使用 xpath 表达式访问它们:
body_tags = tree.xpath('//body')
if body_tags:
body = body_tags[0]
text_document = body.text_content()
else:
text_document = ''
于 2012-08-22T13:12:35.480 回答