我工作的公司拥有数百万个文档,这些文档存储和共享在映射到用户驱动器的多个网络驱动器上(例如 d:\ 到 \server1\ 等)。
我想实现的是在网络驱动器上爬网,让用户使用全文索引快速查找文件。
我目前的索引策略是Lucene.net
但我不确定我应该多久索引一次网络驱动器,因为有数百万个文档要索引,更不用说通过网络传输的数据包了。
所以问题是我应该如何实现索引频率?
我一直在研究 Google/Windows 桌面搜索索引的频率,但没有结果。
我工作的公司拥有数百万个文档,这些文档存储和共享在映射到用户驱动器的多个网络驱动器上(例如 d:\ 到 \server1\ 等)。
我想实现的是在网络驱动器上爬网,让用户使用全文索引快速查找文件。
我目前的索引策略是Lucene.net
但我不确定我应该多久索引一次网络驱动器,因为有数百万个文档要索引,更不用说通过网络传输的数据包了。
所以问题是我应该如何实现索引频率?
我一直在研究 Google/Windows 桌面搜索索引的频率,但没有结果。
很多答案都包含在您与客户签订的任何服务水平协议中。如果您的 SLA 声明搜索结果在X分钟内是最新的,那么这就回答了您应该如何实施索引频率的问题。
如果您像我一样没有具体的 SLA 用于搜索和索引,那么您可以更加灵活。例如,除其他外,我为我的企业管理一个 SharePoint 搜索服务器。除了我们的网站,我们还在非结构化文件空间中索引了很多内容。服务器支持完整和增量爬网。我们对几次增量抓取进行了计时,以估算完成增量抓取所需的时间。然后,我们将增量爬网安排在比观察到的经过时间大得多的间隔上。我们计划在非高峰时间不太频繁地进行完全爬网。
具体情况可能会因您使用的具体索引技术而异,但原理是相同的:
祝你好运!