1

我工作的公司拥有数百万个文档,这些文档存储和共享在映射到用户驱动器的多个网络驱动器上(例如 d:\ 到 \server1\ 等)。

我想实现的是在网络驱动器上爬网,让用户使用全文索引快速查找文件。

我目前的索引策略Lucene.net

但我不确定我应该多久索引一次网络驱动器,因为有数百万个文档要索引,更不用说通过网络传输的数据包了。

所以问题是我应该如何实现索引频率
我一直在研究 Google/Windows 桌面搜索索引的频率,但没有结果。

4

1 回答 1

3

很多答案都包含在您与客户签订的任何服务水平协议中。如果您的 SLA 声明搜索结果在X分钟内是最新的,那么这就回答了您应该如何实施索引频率的问题。

如果您像我一样没有具体的 SLA 用于搜索和索引,那么您可以更加灵活。例如,除其他外,我为我的企业管理一个 SharePoint 搜索服务器。除了我们的网站,我们还在非结构化文件空间中索引了很多内容。服务器支持完整增量爬网。我们对几次增量抓取进行了计时,以估算完成增量抓取所需的时间。然后,我们将增量爬网安排在比观察到的经过时间大得多的间隔上。我们计划在非高峰时间不太频繁地进行完全爬网。

具体情况可能会因您使用的具体索引技术而异,但原理是相同的:

  • 观察一些爬行,最好是在高峰和非高峰时间,并将您的爬行时间表配置为比最坏情况大得多。
  • 为非高峰时间(例如晚上)安排更多资源密集型爬网。
  • 如果完全爬网需要几个小时以上才能完成,那么您可能会将它们安排在周末。
  • 使用支持增量爬网的技术可以在高峰时间显着减少带宽,同时仍然保持索引新鲜。

祝你好运!

于 2010-08-23T00:37:43.860 回答