seo - 可以防止搜索引擎蜘蛛无限爬取搜索结果上的分页链接吗？

Question

我们的 SEO 团队希望向蜘蛛打开我们的主要动态搜索结果页面，并从元标记中删除“nofollow”。蜘蛛目前可以通过允许 robots.txt 中的路径访问它，但在元标记中使用“nofollow”子句来防止蜘蛛超出第一页。

<meta name="robots" content="index,nofollow">

我担心如果我们删除“nofollow”，对我们的搜索系统的影响将是灾难性的，因为蜘蛛将开始爬取结果集中的所有页面。我将不胜感激有关以下方面的建议：

1）有没有办法从元标记中删除“nofollow”，但防止蜘蛛只关注页面上的某些链接？我读过关于 rel="nofollow" 的不同意见，这是一个可行的选择吗？

<a rel="nofollow" href="http://www.mysite.com/paginglink" >Next Page</a>

2）有没有办法控制蜘蛛走多远的“深度”？如果他们点击几页然后停止，那也不会那么糟糕。

3）我们的搜索结果页面有标准的下一个/上一个链接，理论上这会导致蜘蛛无限递归地点击页面，这对搜索引擎优化有什么影响？

我了解不同蜘蛛的行为不同，但我主要关注的是大玩家，例如 Google、Yahoo、MSN。

请注意，我们的搜索结果页面和分页链接对机器人不友好，因为它们没有被重写并且有一个 ?name=value 查询字符串，但据我所知，蜘蛛不再只是在看到 '? ' 因为结果页面正在以不错的页面排名被索引。

score 2 · Accepted Answer

我已经看到谷歌索引了一个日历系统，该系统在每个页面上都有相对链接，直到时间结束（2038 年 1 月 19 日 - 参见：http ://en.wikipedia.org/wiki/Year_2038_problem ）。我们没有注意到我们服务器上的负载，直到它暴露了源代码中处理 2038 年日期的错误。

我不了解其他搜索引擎，但 Google 提供了许多有用的工具来控制 googlebot 对您的服务器基础架构的影响程度。请参阅http://www.google.com/webmasters/。

网站管理员工具中有一个选项可以为您的网站设置抓取速度。

score 2 · Accepted Answer

老实说，您正在查看nofollow错误。搜索蜘蛛很有可能已经在搜索 nofollow 页面，尤其是 Google、Yahoo 和 MSN，因为它们仍然必须点击这些页面来查看它们是否有 noindex。

真正的问题是nofollow实际上并不意味着不关注，它只是意味着不要将我的声誉传递给这个链接。因此，除非您积极阻止机器人（听起来不像您），否则更改链接上的 ROBOTS 元标记和机器人命令不会影响性能，因为它们已经在访问您的站点。要确认这一点，只需查看您的 HTTP 服务器日志。

所以我的投票是，你不会看到取消机器人限制有任何问题。

score 1 · Accepted Answer

谷歌机器人非常聪明，不会遍历动态生成的页面的整个数据库，只要 URL 给出一些提示它们是动态的（即 .asp 或 .jsp 等文件扩展名和数字 id 作为查询参数）。如果您使用重写规则使您的 URL 变得“友好”，那么机器人将很难确定它们正在阅读的是静态页面还是动态生成的页面。有关动态与静态 URL 的更多信息，请参阅此 Google 文章。

您可能还需要考虑创建一个谷歌站点地图，让机器人更好地了解您网站上的哪些页面可以被索引，哪些页面不能。

seo - 可以防止搜索引擎蜘蛛无限爬取搜索结果上的分页链接吗？

3 回答 3

Related

Reference