c# - 优化/自定义 Sharepoint 搜索爬网

Question

在SharePoint Server 2007中，还有一个搜索功能和一个爬网程序。但是，Crawler 有一些限制，因为它仅在爬取外部站点时支持 Basic Auth，并且无法告诉它忽略 no-index、no-follow 属性。

现在，我想索引一个站点，不幸的是，该站点使用它自己的身份验证系统，并且它在页面上使用 no-index，no-follow。当我控制该站点时，我可以删除属性，但这样做是 PITA。此外，它不能解决身份验证问题。

所以我只是想知道是否有可能以某种方式扩展 Sharepoint 的爬虫？

score 3 · Accepted Answer

在 MOSS SP1 中应该已经解决了具有不同表单身份验证的 MOSS 爬取站点的限制。：

这是一篇文章的链接，该文章描述了如何获取 SP1 之前的 MOSS 的修补程序以启用使用表单身份验证的网站爬网：

希望有帮助！

1 回答 1