我正在开发一个基于字符串和数字范围以及日期范围对大量记录执行匹配的系统。据我所知,字符串匹配大多是精确匹配,而不是我理解 lucene 通常设计用于的不太精确的全文搜索类型结果。由于数据涉及价格,因此数值精度很重要。
我注意到 Lucene 最近添加了一些对数字范围搜索的支持,但这并不是它最初设计的目的。
目前,系统使用过程 SQL 进行匹配,系统的可扩展性已达到极限。我正在研究水平扩展系统的方法,并且使用搜索引擎技术似乎是一种可能性,因为有些技术可以扩展到非常大的数据集,同时执行非常快速的搜索结果。我想调查是否可以通过与 lucene 生成的元数据进行匹配来减轻数据库的大量负载,而无需在数据库中获取完整记录,直到匹配规则确定应该检索什么。我希望最终以接近实时的结果为目标,尽管在这一点上我们还有很长的路要走。
我的问题如下:对于这种类型的索引和搜索,Lucene 的执行速度是否可能比 RDBMS 的执行速度快很多倍并且扩展到更大的数据集更便宜?