我正在尝试解析一个非常大的 XML 文件并使用小写字母并删除标点符号。问题是,当我尝试使用cET parse function
for big files 解析此文件时,有时会遇到格式错误的标签或字符,这会引发syntax error
:
SyntaxError: not well-formed (invalid token): line 639337, column 4
注意:我几乎不可能读取文件,所以我看不出问题出在哪里。
我怎样才能跳过或解决这个问题?
from xml.etree import cElementTree as cET
for event, elem in cET.iterparse(xmlFile, events=("start", "end")):
...do something...