5

例如考虑以下 xml

<root>
  <childNode attribute1="value1">
     <grandChildNode attrib1="val1" attrib2="val2">some content1
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content2
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content3
     </grandChildNode>
  </childNode>
  <childNode attribute1="value1">
     <grandChildNode attrib1="val1" attrib2="val2">some content1
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content2
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content3
     </grandChildNode>
  </childNode>
  <childNode attribute1="value1">
     <grandChildNode attrib1="val1" attrib2="val2">some content1
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content2
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content3
     </grandChildNode>
  </childNode>
</root>

使用 DOM 获取根节点,然后循环遍历 childNode 和 grandChildNode 是否有效,或者使用 XPath 表达式收集子节点和 grandChild 节点的详细信息是否有效?

4

1 回答 1

10

如果您想完整地处理一个 XML 文档,那么在反序列化时间、CPU 使用率和内存使用率方面,将 XML 解析为 DOM 几乎总是效率最低的。

解析为 DOM 需要大约 10-15 倍的内存量,因为 XML 文档需要磁盘空间。例如,一个 1 兆字节的 XML 文档将解析为一个占用 10-15 兆字节内存的 DOM。

仅当您打算修改部分或全部数据然后将结果放回 XML 文档时才解析为 DOM。对于所有其他用例,DOM 是一个糟糕的选择。

XPath 通常占用的资源要少得多,但这取决于文档的长度(即您有多少“childNode”元素)以及您感兴趣的数据在文档中的位置。

XPath 内存使用和完成时间往往会随着文档的深入而增加。例如,假设您有一个包含 20,000 个 childNode 元素的 XML 文档,每个 childNode 都有一个您事先知道的唯一标识符,并且您想从文档中提取一个已知的 childNode。提取第 18,345 个子节点将使用比提取第 3 个更多的内存。

因此,如果您使用 XPath 提取所有 childNode 元素,您可能会发现它的效率低于解析为 DOM 的效率。XPath 通常是一种提取 XML 文档的一部分的简单方法。我不推荐使用它来处理所有的 XML 文档。

到目前为止,如果您确实希望提取和处理 XML 文档中的所有数据,那么最好的方法是使用基于 SAX 的阅读器。这将比任何其他方法都快几个数量级,并且资源占用更少。

也就是说,它还取决于您正在处理的数据量。对于您提供的示例 XML 文档,您不会注意到任何实际差异。是的,DOM 会“慢”而 SAX 会“快”,但我们说的是毫秒或微秒的差异。

SAX 可以轻松地比 DOM 快数百或数千倍,但是如果这是 2 微秒和 2 毫秒之间的差异,您将不会注意到。当您处理包含 20,000 个 childNode 元素的文档时,2 秒与 200 秒将成为更大的问题。

于 2009-04-07T10:33:28.087 回答