我正在使用 Python 中的 lxml 库从我不想要的潜在有害代码/部分中清除 html 页面。我注意到函数中有一个奇怪的行为:当给定一个空<li>
节点时,它会删除结束</li>
标记而不是开始标记。
例如,
from lxml.html.clean import Cleaner
text = '<ul><li></li><li>FooBar</li></ul>'
cleaner = Cleaner()
print cleaner.clean_html(text)
将输出<ul><li><li>FooBar</li></ul>
...
据我所知,这只发生在处理<li>
标签时。这是来自 lxml 库的错误吗?难道我做错了什么?
任何见解将不胜感激。谢谢 !