4

我正在使用 lxml 解析一些 HTML 片段(来自 RSS 提要),为了有效地做到这一点,我使用create_parent='div'. 当我稍后输出 HTML 时,我不希望包含父 div,因为在我的 html 布局中,它最终成为 div 中的 div,完全没有必要。

现在的代码如下:

from lxml.html import fragment_fromstring

html = fragment_fromstring(html_string, create_parent = 'div')

for tag in html.xpath('//*[@class]'):
    tag.attrib.pop('class')
for tag in html.xpath('//*[@id]'):
    tag.attrib.pop('id')

return lxml.html.tostring(html)

TL;DR:我如何在输出时删除包装 div?

4

1 回答 1

2

提取子元素。

return '\n'.join(lxml.html.tostring(x) for x in html.iterchildren())
于 2013-06-29T15:08:01.010 回答