我试图用它lxml
来帮助我解析一些 XML 文件并输出它。但是,XML 文件中有一些特殊字符。我不想替换它,因为它太复杂而无法逃脱和取消它。我也不能强迫其他人生成格式良好的 XML。
Python有什么办法可以让我用lxml处理格式不正确的XML?
我可以正确阅读它:
parser = etree.XMLParser(recover=True)
root = etree.parse(sys.argv[1],parser=parser)
但是当我想打印元素文本时,它只能打印内容,直到出现特殊字符。
for element in root.iter("content"):
print("%s - %s attr - %s" % (element.tag, element.text, element.get("name")))