sharepoint - 苔藓 2007 爬行

Question

我试图让爬行在我拥有的两个独立农场上工作，但不能让它在任何一个上工作。它们都有两个 WFE，另外还有一个配置为索引服务器的 WFE。还有一台专用于查询的服务器和两台用于数据库的群集 SQL 2005 后端服务器。我使用搜索引擎的解决方案找到了至少 50 个不同的网站，但均未成功。我已将我的 Web 应用程序配置（扩展）为使用http://servername:12345作为默认区域，并使用http://abc.companyname.com作为自定义区域和 Intranet 区域。当我将其中的每一个都输入到内容源中然后尝试运行爬网时，我在爬网日志中收到了几个错误：

http://servername:12345返回：
“无法连接到服务器。请确保该站点可访问。”

http://abc.companyname.com返回：
“已被收集者删除。（包含此项目的起始地址或内容源已被删除，因此该项目已被删除。）”

但是，我可以单击两个 URL，并且可以访问该页面。

有任何想法吗？

更多信息：

可以这么说，我把石板擦干净了，然后又跑了一次以提供更新的样本。

我的内容来源是这样的：

http://servername:33333
http://sharepoint.portal.fake.com
sps3://servername:33333

我当前的爬网日志错误是：

sps3://servername:33333
PortalCrawl Web 服务中的错误。

http://servername:33333/mysites
该 URL 的内容被服务器排除，因为它是无索引属性。

http://servername:33333/mysites 已
爬取

sts3://servername:33333/contentdbid={62a647a... 已
爬取

sts3://servername:33333 已
爬取

http://servername:33333 已
爬取

http://sharepoint.portal.fake.com
爬虫无法与服务器通信。检查服务器是否可用以及防火墙访问配置是否正确。

我仔细检查了上面的错别字，我没有看到任何错别字，所以这应该是一个准确的反映。

score 4 · Accepted Answer

要记住的一件事是爬网 SharePoint 网站不同于爬网文件共享或非 SharePoint 网站。

其他一些快速指示：

sps3: 协议用于为人物搜索抓取用户配置文件。在您准备好使用用户配置文件之前，您可以忽略爬虫所说的任何内容。
您的爬网帐户应该可以访问您的整个农场。如果您看到权限错误，请查找告诉您如何重置爬网帐户的知识库文章（这是一个特定的 stsadm.exe 命令）。如果您尝试爬取另一个场的内容，那么您将不得不采取其他措施来授予您的爬取帐户访问权限。我认为这是你目前最大的问题。
爬虫（从索引服务器运行）将尝试访问公共 URL。我以前遇到过服务器间通信问题；确保所有三台服务器都可以相互ping通，并确保索引服务器可以访问公共URL（在索引服务器上打开IE并查看）。如果遇到问题，是时候清理索引服务器的主机文件了。无论如何，这都是 SharePoint 为您所做的事情，所以不要觉得这样做太糟糕了。如果您设置了除集成 Windows 身份验证之外的任何内容，则必须更加努力地让您的爬虫工作。

无论如何，回复中有很多来回，所以我只是在外面提出一堆建议，也许其中一个是目标。

score 1 · Accepted Answer

我对你的农场拓扑有点困惑。仅作为 WFE 安装的机器不能作为索引器。安装为“完整”的机器可以是索引器、查询器和/或 wfe...

此外，您可能不想更改默认内容访问帐户，而是添加爬网规则（一旦一切正常运行）

您能否查看索引器上的 %commonprogramfiles%/microsoft shared/web server extensions/12/logs 中是否有任何有用的信息？

日志文件可能有点冗长，您可以搜索“started”或“full”，这通常会让您找到日志中开始爬网的行。

此外，在您的 sql 机器上，您可能能够从 MSScrawlurlhistory 表中获取更多信息。

score 1 · Accepted Answer

能否为http://www.cnn.com创建内容源并开始全爬？你有同样的错误吗？

此外，我们可能希望将此离线，如果您想这样做，请告诉我。

我不确定是否有办法通过 stackoverflow 发送私人消息。

score 1 · Accepted Answer

听起来，您的大多数问题都与 Kerberos 有关。如果您没有应用基础架构更新，那么 Sharepoint 将无法使用 kerberos 身份验证访问具有非默认 (80/443) 端口的网站。这也是为什么（我敢打赌）当服务器 5 位于服务器 4 上时，您无法从服务器 5 访问 CA。如果您没有正确设置 SPN，则只能从安装它的计算机访问 CA。如果您使用端口 80 作为默认 url 安装了 Sharepoint，您就可以毫无障碍地进行本地 sharepoint 爬网。但是根据设计，本地共享点站点抓取使用默认 url 来访问共享点站点。查看http://codefrob.spaces.live.com/blog/cns!7C69E7B2271B08F6!363.entry了解更多关于如何获取 Kerberos &

score 0 · Accepted Answer

在“服务器上的服务”部分检查搜索爬网帐户的属性，以确保它已设置，并且它有权访问这些站点。

score 0 · Accepted Answer

感谢您的新输入！

所以我从周末回来，我想仔细阅读你的建议并尝试每一个，然后报告它们是如何不起作用的，然后发布我得到的结果。不过，有趣的事情发生了。

我去了我的索引器 (servername5) 并尝试从 Internet Explorer 连接到 Central Admin 和主门户。都没有奏效。所以我在索引器上进入 IIS，尝试从 IIS 中浏览到主门户。那也不起作用，我收到一个错误，告诉我其他东西正在使用该端口。所以我从以前的版本中看到了我的旧网站，我从 IIS 中删除了它以及相应的应用程序池。然后我从新版本启动了网站的应用程序池并浏览到该网站。成功。然后我在自己的 PC 上从浏览器浏览到该网站。又成功了。然后我通过完整的 URL 而不是服务器名进行了爬网，如下所示：

http://sharepoint.portal.fake.com

又成功了。它爬取了整个门户，包括我想要的子站点。“索引中的项目”快速填充，我可以说我正在滚动。

我仍然无法从 servername5 访问托管在 servername4 上的 Central Admin 站点。我不知道为什么不，但我不知道这在这一点上很重要。

这让我何去何从？解决方法是什么？

我仍然不确定。也许是重建。也许一旦我重建了服务器场，我就拥有了让它工作所需的一切，但它只是无法工作，因为以前的网站仍在 IIS 中。（有趣的是，卸载 SharePoint 有多么草率。手动删除内容数据库、网站和应用程序池似乎是必要的，而且可能不应该是这种情况。）

无论如何，它现在正在我的“测试”农场上工作，所以关键是让它在生产农场上工作。我希望在这次经历之后它不会那么困难。

感谢大家的帮助！

sharepoint - 苔藓 2007 爬行

6 回答 6

Related

Reference