我试图让爬行在我拥有的两个独立农场上工作,但不能让它在任何一个上工作。它们都有两个 WFE,另外还有一个配置为索引服务器的 WFE。还有一台专用于查询的服务器和两台用于数据库的群集 SQL 2005 后端服务器。我使用搜索引擎的解决方案找到了至少 50 个不同的网站,但均未成功。我已将我的 Web 应用程序配置(扩展)为使用http://servername:12345作为默认区域,并使用http://abc.companyname.com作为自定义区域和 Intranet 区域。当我将其中的每一个都输入到内容源中然后尝试运行爬网时,我在爬网日志中收到了几个错误:
http://servername:12345返回:
“无法连接到服务器。请确保该站点可访问。”
http://abc.companyname.com返回:
“已被收集者删除。(包含此项目的起始地址或内容源已被删除,因此该项目已被删除。)”
但是,我可以单击两个 URL,并且可以访问该页面。
有任何想法吗?
更多信息:
可以这么说,我把石板擦干净了,然后又跑了一次以提供更新的样本。
我的内容来源是这样的:
http://servername:33333
http://sharepoint.portal.fake.com
sps3://servername:33333
我当前的爬网日志错误是:
sps3://servername:33333
PortalCrawl Web 服务中的错误。
http://servername:33333/mysites
该 URL 的内容被服务器排除,因为它是无索引属性。
http://servername:33333/mysites 已
爬取
sts3://servername:33333/contentdbid={62a647a... 已
爬取
sts3://servername:33333 已
爬取
http://sharepoint.portal.fake.com
爬虫无法与服务器通信。检查服务器是否可用以及防火墙访问配置是否正确。
我仔细检查了上面的错别字,我没有看到任何错别字,所以这应该是一个准确的反映。