背景:
我有一个 Sharepoint Foundation 2010 安装,用于存储纸质文档的扫描图像,制作我们为每个公司客户保留的纸质文件夹的电子版本。所有文档都存储为 PDF 文件。
该配置包括一个容纳 Sharepoint 和 Search Server 2010 Express 服务的 Web 服务器,以及容纳内容数据和搜索爬网存储的独立数据库服务器。Sharepoint/Search 框和 SQL 框都是与我们的其他生产服务器在共享主机(包括共享 SAN)上运行的 VMware VM。
添加到 sharepoint 的每个文件都必须通过自定义界面添加,包括客户端信息的元数据标记(具有一组站点列的站点内容类型定义了此额外的元数据)。然后,我们通过设置托管属性向搜索服务器公开此客户端标识数据,以便我们可以对指定 WHERE CustomClientID = X 的搜索 Web 服务进行查询。
我们的数据目前保存在两个大型文档库中,一个用于公司的每个部门。
经过几年的运行,我们的服务器现在有大约 250,000 个文档,我们遇到了完全爬网(每周下班时间运行)有时会在中途崩溃的问题,而我们的增量(在工作时间每 5 分钟运行一次)需要 7-8 分钟拿起2-3个新文件。
问题:
我想知道是否有一种方法可以让搜索服务器爬虫只获取我们提供的元数据并完全忽略文档内容,我认为这会将爬取过程加快几个数量级。我相信这个功能被描述为全文搜索,但没有成功找到任何解释这是否可以关闭的东西。
如果没有,是否有任何人会建议的加快爬行时间的替代选择?