python - 通过 lxml.etree.iterparse 在一个文件中解析多个 XML 声明

Question

我需要解析一个包含各种 XML 文件的文件，即 <xml></xml> <xml></xml> .. 等等。使用 etree.iterparse 时，出现以下（正确）错误：

lxml.etree.XMLSyntaxError: XML declaration allowed only at the start of the document

现在，我可以预处理输入文件并为每个包含的 XML 文件生成一个单独的文件。这可能是最简单的解决方案。但我想知道这个“问题”是否存在适当的解决方案。

谢谢！

score 3 · Accepted Answer

您提供的示例数据表明了一个问题，而您提供的问题和异常表明了另一个问题。您是否有多个连接在一起的 XML 文档，每个文档都有自己的 XML 声明，或者您是否有一个包含多个顶级元素的 XML 片段？

如果是前者，那么解决方案将涉及将输入流分解为多个流，并单独解析每个流。正如一条评论所暗示的，这并不一定意味着实现 XML 解析器。您可以在字符串中搜索 XML 声明，而无需解析其中的任何其他内容，只要您的输入不包括包含未转义 XML 声明的 CDATA 部分。您可以编写一个类似文件的对象，该对象从底层流返回字符，直到它遇到 XML 声明，然后将其包装在一个生成器函数中，该生成器函数不断返回流，直到到达 EOF。这不是微不足道的，但也不是非常困难。

如果您有一个包含多个顶级元素的 XML 片段，您可以将它们包装成一个 XML 元素并解析整个内容。

当然，与涉及错误 XML 输入的大多数问题一样，最简单的解决方案可能只是修复产生错误输入的问题。

score 0 · Accepted Answer

我使用正则表达式来解决这个问题。假设 data 是一个包含多个 xml 文档的字符串，并且该句柄是一个函数，它将对每个文档执行一些操作。执行此循环后，数据将为空，或包含不完整的 XML 文档，句柄函数将被调用零次或多次。

while True:
  match = re.match (r'''
        \s*                 # ignore leading whitespace
        (                   # start first group
          <(?P<TAG>\S+).*?> # opening tag (with optional attributes)
            .*?             # stuff in the middle
          </(?P=TAG)>       # closing tag
        )                   # end of first xml document
        (?P<REM>.*)         # anything else
      ''',
    data, re.DOTALL | re.VERBOSE)
  if not match:
    break
  document = match.group (1)
  handle (document)
  data = match.group ('REM')

python - 通过 lxml.etree.iterparse 在一个文件中解析多个 XML 声明

2 回答 2

Related

Reference