我需要整理 HTML 页面并在 Python 中将它们转换为 XML;如果需要,丢失一些“坏”部分。
我用了一段时间的TagSoup,但是它不理解新的“文章”、“页脚”标签,并且不喜欢不在头部的“元”;使生成的 XML 几乎无法处理。
到目前为止,我喜欢html5lib所做的事情,但是我的第五次测试(非常奇怪的测试)失败了;解析时
<div attr="val"">
使用 html5lib + xml.dom treebuilder,我在生成的 XML 字符串中得到以下内容:
<div attr="val" "="">
对于格式良好的 xml,这不是一个好的结果。
当我尝试将 html5lib + lxml作为树生成器时,我将其转换为
<div attr="val" U00022="">
哪个更好,但问题是lxml “吃掉”标签的结束标签/斜线<link>
,使它们仅<link ... >
在输出 XML 时。
你会推荐使用什么?