我有一个大 (~50Mb) 文件,其中包含格式不佳的 XML 描述文档和<item> </item>
标签之间的属性,我想从所有英文文档中提取文本。
Python 的标准 XML 解析实用程序(dom、sax、expat)因格式错误而窒息,而更宽容的库(sgmllib、BeautifulSoup)解析整个文件并花费太长时间。
<item>
<title>some title</title>
<author>john doe</author>
<lang>en</lang>
<document> .... </document>
</item>
有谁知道<document> </document>
只有在lang=en
不解析整个文档的情况下才提取文本的方法?
附加信息:为什么它“格式不正确”
一些文档具有<dc:link></dc:link>
导致解析器出现问题的属性。Python 的 xml.minidom 抱怨:
ExpatError: unbound prefix: line 13, column 0