0

我的网站有大约 200 篇有用的文章。由于该网站具有包含大量参数的内部搜索功能,因此搜索引擎最终会使用附加参数(如标签、搜索短语、版本、日期等)的所有可能排列来抓取网址。这些页面中的大多数只是搜索结果列表带有一些原始文章的片段。

根据谷歌的网站管理员工具,谷歌只抓取了 xml 站点地图中 200 个条目中的大约 150 个。看起来谷歌在上线几年后还​​没有看到所有的内容。

我计划在 robots.txt 中添加一些“Disallow:”行,以便搜索引擎不再抓取那些动态网址。此外,我计划在网站管理员工具“网站配置”->“url 参数”部分禁用一些 url 参数。

这会改善还是损害我目前的 SEO 排名?看起来好像我的网站正在丢失数千个内容页面。

4

2 回答 2

1

这正是规范 URL的用途。如果一个页面(例如文章)可以通过多个 URL 访问,那么您需要使用规范 URL 指定主 URL。这可以防止重复内容问题,并告诉 Google 在其搜索结果中显示哪个 URL。

所以不要屏蔽你的任何文章,你也不需要输入任何参数。只需使用规范的 URL,就可以了。

于 2011-09-21T17:51:26.810 回答
0

正如 nn4l 指出的那样,规范不是搜索页面的好解决方案。

您应该做的第一件事是让搜索结果页面包含一个表示 noindex 的机器人元标记。这将有助于将它们从您的索引中删除,并让 Google 专注于您的真实内容。当它们被重新抓取时,谷歌应该慢慢删除它们。

其他措施:

在 GWMT 中告诉 Google 忽略所有这些搜索参数。只是一个创可贴,但可能有助于加速恢复。

不要在 robots.txt 文件中阻止搜索页面,因为这会阻止机器人抓取并彻底删除那些已编入索引的页面。等到你的索引是清晰的,然后再做一个完整的块。

您的搜索系统必须基于链接(标签)或基于 GET 的表单,而不是基于 POST 的表单。这就是他们被索引的原因。将它们切换到基于 POST 的表单应该会阻止机器人首先尝试索引这些页面。JavaScript 或 AJAX 是另一种方法。

于 2012-03-29T14:22:29.067 回答