seo - 使用 robots.txt 限制动态网址会提高我的 SEO 排名吗？

Question

我的网站有大约 200 篇有用的文章。由于该网站具有包含大量参数的内部搜索功能，因此搜索引擎最终会使用附加参数（如标签、搜索短语、版本、日期等）的所有可能排列来抓取网址。这些页面中的大多数只是搜索结果列表带有一些原始文章的片段。

根据谷歌的网站管理员工具，谷歌只抓取了 xml 站点地图中 200 个条目中的大约 150 个。看起来谷歌在上线几年后还没有看到所有的内容。

我计划在 robots.txt 中添加一些“Disallow:”行，以便搜索引擎不再抓取那些动态网址。此外，我计划在网站管理员工具“网站配置”->“url 参数”部分禁用一些 url 参数。

这会改善还是损害我目前的 SEO 排名？看起来好像我的网站正在丢失数千个内容页面。

score 1 · Accepted Answer

这正是规范 URL的用途。如果一个页面（例如文章）可以通过多个 URL 访问，那么您需要使用规范 URL 指定主 URL。这可以防止重复内容问题，并告诉 Google 在其搜索结果中显示哪个 URL。

所以不要屏蔽你的任何文章，你也不需要输入任何参数。只需使用规范的 URL，就可以了。

score 0 · Accepted Answer

正如 nn4l 指出的那样，规范不是搜索页面的好解决方案。

您应该做的第一件事是让搜索结果页面包含一个表示 noindex 的机器人元标记。这将有助于将它们从您的索引中删除，并让 Google 专注于您的真实内容。当它们被重新抓取时，谷歌应该慢慢删除它们。

其他措施：

在 GWMT 中告诉 Google 忽略所有这些搜索参数。只是一个创可贴，但可能有助于加速恢复。

不要在 robots.txt 文件中阻止搜索页面，因为这会阻止机器人抓取并彻底删除那些已编入索引的页面。等到你的索引是清晰的，然后再做一个完整的块。

您的搜索系统必须基于链接（标签）或基于 GET 的表单，而不是基于 POST 的表单。这就是他们被索引的原因。将它们切换到基于 POST 的表单应该会阻止机器人首先尝试索引这些页面。JavaScript 或 AJAX 是另一种方法。

2 回答 2