在SharePoint Server 2007中,还有一个搜索功能和一个爬网程序。但是,Crawler 有一些限制,因为它仅在爬取外部站点时支持 Basic Auth,并且无法告诉它忽略 no-index、no-follow 属性。
现在,我想索引一个站点,不幸的是,该站点使用它自己的身份验证系统,并且它在页面上使用 no-index,no-follow。当我控制该站点时,我可以删除属性,但这样做是 PITA。此外,它不能解决身份验证问题。
所以我只是想知道是否有可能以某种方式扩展 Sharepoint 的爬虫?