我们有数百万个由许多段落组成的文档。要求是在这个语料库之上开发一个精确的搜索系统。搜索字符串通常从段落的开头开始,并且可以扩展到两个或更多段落。在这个系统中将使用什么数据结构和算法来存储持久化数据需要注意的是,与跨页面搜索查询的速度相比,添加文档的速度要慢得多。
问问题
32 次
1 回答
0
如果您自己手动解析数百万条记录,这将是一项乏味且耗时的任务。
您可以使用 APACHE Lucene Engine 为您解析文档。如果你不了解 Lucene,它是一个功能齐全的文本搜索引擎库,可以实现全文搜索,尤其是跨平台。
签出: http: //lucene.apache.org
于 2012-07-17T17:01:11.013 回答