xquery - 使用 xquery 和 FLWOR 在 BaseX 中遍历大型 XML 文档的最有效方法

Question

我遇到了一个有趣的问题，我需要遍历多个大型 XML 文件（每个文件为数百 MB）并从每个元素中输出特定数据，并尽可能快地完成。例子：

点数.xml：

<points>
  <point>
    <identifier>bb25c66c-27d0-447f-aaad-bd8290b332fd</identifier>
    <name>A</name>
  </point>
  <point>
    <identifier>f187cc74-2709-4464-995c-b3bdcae46b39</identifier>
    <name>B</name>
  </point>
</points>

路由.xml：

<routes>
  <route>
    <pointLink xlink:href="urn:uuid:bb25c66c-27d0-447f-aaad-bd8290b332fd"/>
    <name>1</name>
  </route>
  <route>
    <pointLink xlink:href="urn:uuid:f187cc74-2709-4464-995c-b3bdcae46b39"/>
    <name>2</name>
  </route>
</routes>

在不同的文档中有数以万计的点/路线元素，它们比这复杂得多，但对于这个例子，这个摘录就足够了。

输出需要是这样的：

1 - A
2 - B

我不能自己修改文档，这是我必须处理的，现在的问题是 - 如何尽可能有效地根据标识符链接元素？我说的是这样做的方法，也许是一种不同的思考方式，而不是实际的代码，因为无论如何它最终都会完全不同。

我尝试循环遍历路线，然后使用 FLWOR 找到点：

for $route in doc('routes.xml')/routes/route
  return concat(
    $route/name/text(),
    ' - ',
    doc('points.xml')/points/point[./identifier/text() = substring-after($route/pointLink/@xlink:href, 'urn:uuid:')]/name/text()
  )

效果不太好（花了将近一个小时才完成）。这种方法也有类似的故事：

for $route in doc('routes.xml')/routes/route,
    $point in doc('points.xml')/points/point[./identifier/text() = substring-after($route/pointLink/@xlink:href, 'urn:uuid:')]
  return concat(
    $route/name/text(),
    ' - ',
    $point/name/text()
  )

最后，我需要在输出中使用来自点/路由的更多子元素，所以我认为我必须使用 for 迭代它们，然后连接输出，但也许我错了，这就是我在这里问的原因。

有没有我忽略的东西，或者根本没有更快的方法来做到这一点？

score 2 · Accepted Answer

正如 Martin Honnen 在评论中所说，问题确实出在索引上。简单地创建一个属性索引（CREATE INDEX 属性）有助于将查询时间从大约 45 分钟减少到不到一秒。极好的。

xquery - 使用 xquery 和 FLWOR 在 BaseX 中遍历大型 XML 文档的最有效方法

1 回答 1

Related

Reference