我有一些 xml 文件,但我得到了一些 xml 字符错误。例子:
lxml.etree.XMLSyntaxError: invalid character in attribute value, line 4, column 41976
我已经阅读了大量的东西并尝试了它们没有任何帮助。我很想知道这样的解决方案:
1-我读取了文件夹中的所有 xml 文件,因此对于其中许多文件,它通过了一些它停止了。如何忽略 Python 中的停止?2-如何解决给我错误的输入文件的问题?
示例代码:
tree = etree.parse(sys.argv[1]+file)
for extraction in tree.findall("TIMEX3"):
value=""
for token in extraction.findall("TOKEN"):
value = value + " " + token.text
错误:
lxml.etree.XMLSyntaxError: invalid character in attribute value, line 4, column 41976
试过这个:https ://gist.github.com/lawlesst/4110923 没用。它实际上也对正确的文件造成了问题。
我还检查了字符 41976,它完全是一个好字符。
head -4 file.xml | tail -1 | head -c 41977
这是结果:结果的最后一个字符:
numchild="0" numbsibling="0"
谢谢。