我正在使用 lxml 解析一些 HTML 片段(来自 RSS 提要),为了有效地做到这一点,我使用create_parent='div'
. 当我稍后输出 HTML 时,我不希望包含父 div,因为在我的 html 布局中,它最终成为 div 中的 div,完全没有必要。
现在的代码如下:
from lxml.html import fragment_fromstring
html = fragment_fromstring(html_string, create_parent = 'div')
for tag in html.xpath('//*[@class]'):
tag.attrib.pop('class')
for tag in html.xpath('//*[@id]'):
tag.attrib.pop('id')
return lxml.html.tostring(html)
TL;DR:我如何在输出时删除包装 div?