1

我对谷歌抓取的页面数量有一个“双重”问题,这可能与可能的重复内容(或不重复)有关,并且对 SEO 的影响。

关于我的网页数和 Google 抓取的网页数的事实

我在两个月前推出了一个新网站。今天,它有近 150 页(每天都在增加)。无论如何,这是我的站点地图中的页数。

如果我查看谷歌网站管理员的“抓取统计”,我可以看到谷歌每天抓取的页面数量要大得多(见下图)。谷歌一天抓取了多达 903 个页面

我不确定它实际上是否好,因为它不仅使我的服务器更加繁忙(一天 903 页的下载量为 5.6 MB),而且我害怕它也会产生一些重复的内容。

我在 Google (site:mysite.com) 上进行了检查,它给了我 1290 个页面(但只有 191 个显示,除非我点击“重复搜索并包含省略的结果”。假设 191 个是我的站点地图中的那些(我认为我有大约 40 页重复内容的问题,但我只是为此更新了网站)。

关于我的 robots.txt 的事实

我使用 robots.txt 文件来禁止所有抓取引擎访问带有参数的页面(请参阅下面的机器人)以及“标签”。

User-Agent: *
Disallow: /administrator
Disallow: *?s
Disallow: *?r
Disallow: *?c
Disallow: *?viewmode
Disallow: */tags/*
Disallow: *?page=1
Disallow: */user/*

最重要的是标签。它们在我的网址中如下:

www.mysite.com/tags/Advertising/writing

它被 robots.txt 阻止(我已经与谷歌网站管理员核实)但它仍然存在于谷歌搜索中(但您需要点击“重复搜索并包含省略的结果。”)

我不希望这些页面被抓取,因为它是重复的内容(这是对关键字的一种搜索),这就是我将它们放在 robots.txt 中的原因

最后,我的问题是:

为什么 Google 会抓取我在 robots.txt 中屏蔽的网页?

为什么 Google 会将我屏蔽的页面编入索引?这些页面是否被 Google 视为重复内容?如果是,我想这对 SEO 不利。

编辑:我不是在问如何删除在 Google 中编入索引的页面(我已经知道答案了)。

4

1 回答 1

1

为什么谷歌正在抓取我在 robots.txt 中阻止的页面?为什么谷歌将我屏蔽的页面编入索引?

在您阻止它之前,他们可能已经抓取了它。您必须等到他们阅读您更新的 robots.txt 文件,然后相应地更新他们的索引。对此没有固定的时间表,但对于较新的网站,通常会更长。

这些页面是否被视为重复内容?

你告诉我们。重复内容是指两个页面在两个或多个页面上具有相同或几乎相同的内容。这是否发生在您的网站上?

阻止重复内容不是解决该问题的方法。您应该使用规范的 URL。阻止页面意味着您链接到网站中的“黑洞”,这会损害您的 SEO 工作。规范 URL 可以防止这种情况发生,并为规范 URL 的相关条款以及所有重复页面的所有链接提供充分的信誉。

于 2011-12-09T03:46:37.197 回答