我是 lucene 的新手,我想用包含纯文本以及属性和许多 xml 标签的大型 xml 文件(15GB)的 lucene 进行索引。如何使用带有任何示例的 lucene 解析和索引此 xml 文件,如果我们使用 lucene,我们需要任何数据库
如何使用 lucene 解析和索引巨大的 xml 文件?任何示例或链接都将有助于我理解该过程。另一个,如果我使用 lucene,我是否需要任何数据库,因为我已经看到并使用数据库进行了索引..
您的索引将像使用数据库一样构建,只需遍历您想要索引的所有数据并将其写入索引。只需使用XmlReader类以仅向前的方式解析您的 xml。就像数据库一样,您需要索引某种主键,以便知道搜索结果代表什么。
在从主键中查找索引数据时,数据库会有所帮助。如果您需要在每次请求时迭代一个 15 GiB 的 xml 文件,那么读取主键的数据会很麻烦。
数据库不是必需的,但它有很大帮助。我会将它构建为一个导入工具,它可以读取您的 xml,将其转储到您的数据库中,然后使用您之前构建的“普通”数据库索引代码。
您可能想看看 Michael Sokolov 的 Lux 产品,它结合了 Lucene 和 Saxon:
http://www.mail-archive.com/solr-user@lucene.apache.org/msg84102.html
我自己没有使用过它,也不能声称完全了解它的功能。