我已经使用Lucene.net在几个小型网站上实现了搜索功能(数据库内容和上传的文档),没有任何问题。现在我有一个网站,我正在索引 5000 多个文档(主要是 PDF)并且查询变得有点慢。
我假设加速它的最佳方法是实现某种缓存。谁能给我关于从哪里开始的任何指示/示例?如果您除了缓存还有其他建议(例如,我应该使用多个索引吗?)我也想听听这些建议。
编辑:
导致查询缓慢的愚蠢用户错误。我一次为整个结果集创建了亮点,而不仅仅是我正在显示的“页面”。哎呀。
我已经使用Lucene.net在几个小型网站上实现了搜索功能(数据库内容和上传的文档),没有任何问题。现在我有一个网站,我正在索引 5000 多个文档(主要是 PDF)并且查询变得有点慢。
我假设加速它的最佳方法是实现某种缓存。谁能给我关于从哪里开始的任何指示/示例?如果您除了缓存还有其他建议(例如,我应该使用多个索引吗?)我也想听听这些建议。
编辑:
导致查询缓慢的愚蠢用户错误。我一次为整个结果集创建了亮点,而不仅仅是我正在显示的“页面”。哎呀。
我将在这里做一个很大的假设,并假设您在查询索引的调用之间没有挂在索引搜索器上。
如果这是真的,那么您绝对应该为您的索引的所有查询共享索引搜索器。随着索引变得更大(并且它实际上不必变得非常大才能成为一个因素),重建索引搜索器将变得越来越多的开销。要使其正常工作,您需要同步对查询解析器类的访问(它不是线程安全的)。
顺便说一句,Java 文档(我发现)同样适用于 .net 版本。
有关您的问题的更多信息,请参见此处: http ://wiki.apache.org/lucene-java/ImproveSearchingSpeed
Lucene 使用自己的内部“缓存”机制使索引检索成为一种快速操作。不过,我不认为缓存是您的问题。
5000 个索引的文档在大小上听起来微不足道,但这在很大程度上取决于您构建索引的方式、索引/存储的内容、查询的方式(操作上)、文档大小等。
请尽可能多地填写有关您的索引的信息。
首先,Lucene 本身支持内存版本的目录:
Lucene.Net.Store.RAMDirectory
你可以像这样使用它:
RAMDirectory idx = new RAMDirectory();
// Make an writer to create the index
IndexWriter writer =
new IndexWriter(idx, new StandardAnalyzer(), true);
如果这对您有用,但它使用了太多 ram,请编写一个包装器并将其公开为接口或 web 服务。或者,如果您只是想缓存您正在查询的内容以控制实体何时从缓存中退出,您可以围绕 Lucene 编写一个包装器,该包装器显然会根据关键字为您缓存最常见的结果。
我更喜欢前面提到的。使用 RAMDirectory 创建一个围绕 Lucene 存储的 Web 服务或服务项目。这样,如果索引很大,您可以将 Web 服务卸载到具有大量内存的另一台服务器上 - 并获得近乎即时的结果。
一定要优化你的索引。
此外,这是实现缓存的一种快速/简单/有效的方法: HttpRuntime.Cache.Add(...);
您可以使用任何类型的项目/库中的 ASP.Net 缓存。