我使用了 Apache SOLR 4.0 (http://lucene.apache.org/solr/4_0_0/tutorial.html) 教程中的示例,并在大约 800 万个文档上实现了相同的示例。该文档包含三个字段,即标题、ID 和特征。有 800 万个文档基本上是转换为 XML 文件的 html 文件,其中 title 包含 html 页面的标题, features 包含 html 文件正文部分中的文本。
现在,搜索很容易,但需要时间。如果我搜索某个术语,搜索速度很快,但如果查询类似于“美国和加拿大的汉堡”,那么查询需要很长时间 ~ 5 秒。
如何优化相同以使搜索更快?