0

我给谷歌一个包含我所有页面的站点地图,当爬虫试图访问它们时,他会被重定向到登录页面。

在登录页面中,我会解释页面的作用,以便爬虫可以看到每个页面都是不同的。

现在的问题是机器人足够聪明,可以识别出它是一个重定向:

未遵循的 URL 当我们测试您站点地图中的 URL 样本时,我们发现一些 URL 重定向到其他位置。我们建议您的站点地图包含指向最终目的地(重定向目标)的 URL,而不是重定向到另一个 URL。HTTP 错误:302

如果微软没有在 RedirectToLoginPage(String) 中使用重定向,而是使用了 Server.Transfer,谷歌永远不会发现它实际上是同一个页面。

有任何想法吗?

4

2 回答 2

1

正如卡尔所说,如果访问您的内容需要登录,那么您无能为力。

但是,如果您可以分离出每个内容页面的“预告片”,并从需要登录的页面中获得“阅读更多”的链接,那么您就可以开始了。

预告页面应该有足够的可搜索文本,以便 google 能够成功地将其包含在搜索结果中。

有许多网站可以做到这一点。你搜索一些东西,点击链接去他们的网站。在那里,您可能会看到两段信息。如果您想要更多链接,请访问登录/注册页面。

于 2011-06-29T21:58:23.007 回答
0

好吧,我找到了一个不优雅的解决方案,但它适合我的需求:

http://forums.asp.net/t/1358997.aspx

""目前,我找到了一个解决方法:我捕获了 End-request 事件并查看状态码是否为 "302 redirected";如果是的话,我会从那里更改地址并做我需要做的任何事情。不是最优雅的解决方案(并且需要对每个页面请求进行更多处理;不仅仅是登录重定向),但至少它有效。""

于 2011-07-08T18:04:18.120 回答