假设我有非常大的 XML 文件,其中的条目具有<id>
标签或id=""
属性。
如何通过这个 id 搜索?我可以创建一些搜索索引什么的。
目前我正在使用org.w3.dom
. 它有一些搜索方法吗?
更新
我的大 XML 文件是下载的 Wikipedia。它有 40G 大小,拥有数百万条记录。
是否可以使用 Lucene 之类的东西对其进行索引,然后快速搜索 ID?
更新2
试过了BaseX
。它吃掉了我的 XML 并创建了 32Gb 的数据库。不明白它是否截断了数据或 32Gb 是因为一些压缩。
不幸的是,按 ID 搜索需要 70-80 秒或更长时间。所以它比 Mediawiki API 查询要长。