3

我试图让爬行在我拥有的两个独立农场上工作,但不能让它在任何一个上工作。它们都有两个 WFE,另外还有一个配置为索引服务器的 WFE。还有一台专用于查询的服务器和两台用于数据库的群集 SQL 2005 后端服务器。我使用搜索引擎的解决方案找到了至少 50 个不同的网站,但均未成功。我已将我的 Web 应用程序配置(扩展)为使用http://servername:12345作为默认区域,并使用http://abc.companyname.com作为自定义区域和 Intranet 区域。当我将其中的每一个都输入到内容源中然后尝试运行爬网时,我在爬网日志中收到了几个错误:

http://servername:12345返回:
“无法连接到服务器。请确保该站点可访问。”

http://abc.companyname.com返回:
“已被收集者删除。(包含此项目的起始地址或内容源已被删除,因此该项目已被删除。)”

但是,我可以单击两个 URL,并且可以访问该页面。

有任何想法吗?


更多信息:

可以这么说,我把石板擦干净了,然后又跑了一次以提供更新的样本。

我的内容来源是这样的:

http://servername:33333
http://sharepoint.portal.fake.com
sps3://servername:33333

我当前的爬网日志错误是:

sps3://servername:33333
PortalCrawl Web 服务中的错误。

http://servername:33333/mysites
该 URL 的内容被服务器排除,因为它是无索引属性。

http://servername:33333/mysites 已
爬取

sts3://servername:33333/contentdbid={62a647a... 已
爬取

sts3://servername:33333 已
爬取

http://servername:33333 已
爬取

http://sharepoint.portal.fake.com
爬虫无法与服务器通信。检查服务器是否可用以及防火墙访问配置是否正确。

我仔细检查了上面的错别字,我没有看到任何错别字,所以这应该是一个准确的反映。

4

6 回答 6

4

要记住的一件事是爬网 SharePoint 网站不同于爬网文件共享或非 SharePoint 网站。

其他一些快速指示:

  • sps3: 协议用于为人物搜索抓取用户配置文件。在您准备好使用用户配置文件之前,您可以忽略爬虫所说的任何内容。
  • 您的爬网帐户应该可以访问您的整个农场。如果您看到权限错误,请查找告诉您如何重置爬网帐户的知识库文章(这是一个特定的 stsadm.exe 命令)。如果您尝试爬取另一个场的内容,那么您将不得不采取其他措施来授予您的爬取帐户访问权限。我认为这是你目前最大的问题。
  • 爬虫(从索引服务器运行)将尝试访问公共 URL。我以前遇到过服务器间通信问题;确保所有三台服务器都可以相互ping通,并确保索引服务器可以访问公共URL(在索引服务器上打开IE并查看)。如果遇到问题,是时候清理索引服务器的主机文件了。无论如何,这都是 SharePoint 为您所做的事情,所以不要觉得这样做太糟糕了。如果您设置了除集成 Windows 身份验证之外的任何内容,则必须更加努力地让您的爬虫工作。

无论如何,回复中有很多来回,所以我只是在外面提出一堆建议,也许其中一个是目标。

于 2008-10-06T13:05:29.847 回答
1

我对你的农场拓扑有点困惑。仅作为 WFE 安装的机器不能作为索引器。安装为“完整”的机器可以是索引器、查询器和/或 wfe...

此外,您可能不想更改默认内容访问帐户,而是添加爬网规则(一旦一切正常运行)

您能否查看索引器上的 %commonprogramfiles%/microsoft shared/web server extensions/12/logs 中是否有任何有用的信息?

日志文件可能有点冗长,您可以搜索“started”或“full”,这通常会让您找到日志中开始爬网的行。

此外,在您的 sql 机器上,您可能能够从 MSScrawlurlhistory 表中获取更多信息。

于 2008-10-02T18:43:32.023 回答
1

能否为http://www.cnn.com创建内容源并开始全爬?你有同样的错误吗?

此外,我们可能希望将此离线,如果您想这样做,请告诉我。

我不确定是否有办法通过 stackoverflow 发送私人消息。

于 2008-10-03T17:54:52.013 回答
1

听起来,您的大多数问题都与 Kerberos 有关。如果您没有应用基础架构更新,那么 Sharepoint 将无法使用 kerberos 身份验证访问具有非默认 (80/443) 端口的网站。这也是为什么(我敢打赌)当服务器 5 位于服务器 4 上时,您无法从服务器 5 访问 CA。如果您没有正确设置 SPN,则只能从安装它的计算机访问 CA。如果您使用端口 80 作为默认 url 安装了 Sharepoint,您就可以毫无障碍地进行本地 sharepoint 爬网。但是根据设计,本地共享点站点抓取使用默认 url 来访问共享点站点。查看http://codefrob.spaces.live.com/blog/cns!7C69E7B2271B08F6!363.entry了解更多关于如何获取 Kerberos &

于 2009-01-19T16:35:52.650 回答
0

在“服务器上的服务”部分检查搜索爬网帐户的属性,以确保它已设置,并且它有权访问这些站点。

于 2008-09-22T03:59:23.130 回答
0

感谢您的新输入!

所以我从周末回来,我想仔细阅读你的建议并尝试每一个,然后报告它们是如何不起作用的,然后发布我得到的结果。不过,有趣的事情发生了。

我去了我的索引器 (servername5) 并尝试从 Internet Explorer 连接到 Central Admin 和主门户。都没有奏效。所以我在索引器上进入 IIS,尝试从 IIS 中浏览到主门户。那也不起作用,我收到一个错误,告诉我其他东西正在使用该端口。所以我从以前的版本中看到了我的旧网站,我从 IIS 中删除了它以及相应的应用程序池。然后我从新版本启动了网站的应用程序池并浏览到该网站。成功。然后我在自己的 PC 上从浏览器浏览到该网站。又成功了。然后我通过完整的 URL 而不是服务器名进行了爬网,如下所示:

http://sharepoint.portal.fake.com

又成功了。它爬取了整个门户,包括我想要的子站点。“索引中的项目”快速填充,我可以说我正在滚动。

我仍然无法从 servername5 访问托管在 servername4 上的 Central Admin 站点。我不知道为什么不,但我不知道这在这一点上很重要。

这让我何去何从?解决方法是什么?

我仍然不确定。也许是重建。也许一旦我重建了服务器场,我就拥有了让它工作所需的一切,但它只是无法工作,因为以前的网站仍在 IIS 中。(有趣的是,卸载 SharePoint 有多么草率。手动删除内容数据库、网站和应用程序池似乎是必要的,而且可能不应该是这种情况。)

无论如何,它现在正在我的“测试”农场上工作,所以关键是让它在生产农场上工作。我希望在这次经历之后它不会那么困难。

感谢大家的帮助!

于 2008-10-08T07:48:34.823 回答