1

我需要对位于文件系统上的 XML 文件实现最快的全文搜索。基本上我需要确定某些 XML 节点值是否包含特定的关键字。我考虑了几个选项:

  • 遍历目录中的文件 -> 逐行读取文件 -> 使用 Matcher / Pattern 来确定关键字是否在这里
  • 遍历目录中的文件 -> 使用 SAX 解析器
  • 新文件到达目录后立即在所需的 XML 节点上创建索引(例如,使用 Solr),然后查询索引引擎

什么策略更好选择,为什么?

4

1 回答 1

0

如果 xml 文件很小(几 KB/几 MB),那么我建议您应该逐行读取它们(或使用其他一些 xml 解析技术来读取它们)。当您有一个非常大的 xml 文件时,Solr 将证明是有用的。Solr 也可以轻松读取小文件(但是,这完全取决于您有多少时间)

不确定 SAX 解析器。

于 2013-01-07T21:32:46.097 回答