我正在使用html5lib验证来自用户的自定义 HTML 。问题是 html5lib 添加了html
,head
和body
标签,我不需要。
parser = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("simpleTree"))
f = open('/home/user/ex.html')
doc = parser.parse(f)
doc.toxml()
'<html><head/><body><div>\n <a href="http://speedhunters.com">speedhunters.com\n</a></div><a href="http://speedhunters.com">\n</a></body></html>'
这是经过验证的,可以清理,但我怎样才能删除或阻止将这些标签添加到树中?我的意思是排除replace
使用。