java - 来自java的libxml2

Question

这个问题与Java 中用于小型、简单文档的最快 XML 解析器有些相关，但有更多细节。

我正在开发一个需要解析许多（数百万个）小型（大约 300k）xml 文档的应用程序。当前的实现使用 xerces-j，在 1.5 GHz 机器上每个 xml 文档大约需要 2.5 ms。我想提高这个性能。我偶然发现了这篇文章

http://www.xml.com/pub/a/2007/05/16/xml-parser-benchmarks-part-2.html

声称 libxml2 的解析速度比任何 java 解析器都要快一个数量级。我不确定我是否相信，但它引起了我的注意。 有没有人尝试过使用 jvm 中的 libxml2？如果是这样，它是否比 java dom 解析（xerces）更快？ 我想我仍然需要我的 java dom 结构，但我猜从 c 结构的 dom 复制到 java-dom 应该不会花很长时间。我必须有 java-dom - 在这种情况下 sax 对我没有帮助。

更新：我刚刚为 libxml2 编写了一个测试，它并没有比 xerces 快......因为我的 c 编码能力非常生疏。

更新我在这里稍微扩大了问题：为什么 sax 解析比 dom 解析更快？以及 stax 是如何工作的？并对放弃 dom 的可能性持开放态度。

谢谢

score 2 · Accepted Answer

在 Java 中，StAX JSR-173通常被认为是解析 XML 的最快方法。StAX 有多种实现，Woodstox实现通常被认为是快速的。

为了提高性能，我会避免使用 DOM。你在用 XML 做什么？如果您最终将其作为对象处理，则应考虑使用 OXM 解决方案。标准是 JAXB JSR-222。诸如MOXy（我是技术负责人）之类的 JAXB 实现甚至允许您进行部分映射，从而提高性能：

http://bdoughan.blogspot.com/2010/09/xpath-based-mapping-geocode-example.html

score 0 · Accepted Answer

首先，您的问题不包含问题。你想知道什么？

我想您正在使用 JNI 将 c-dom 转换为 java-dom。我不知道是否有官方数字，但根据我的经验，c+JNI 通常比直接在 java 中执行要慢。

如果你真的想加快你的处理速度，试着去掉dom（为什么需要它？也许我们可以一起想一个解决方案）。如果所有 xml 文件都具有相同的模式，请使用您自己的专用数据模型（和 SAX 解析器）。

如果您只使用 xml 的一个子集（即没有命名空间，只有几个属性），请考虑编写您自己的解析器来直接生成更高效的 java 对象（但我不建议这样做）。

java - 来自java的libxml2

2 回答 2

Related

Reference