我对谷歌抓取的页面数量有一个“双重”问题,这可能与可能的重复内容(或不重复)有关,并且对 SEO 的影响。
关于我的网页数和 Google 抓取的网页数的事实
我在两个月前推出了一个新网站。今天,它有近 150 页(每天都在增加)。无论如何,这是我的站点地图中的页数。
如果我查看谷歌网站管理员的“抓取统计”,我可以看到谷歌每天抓取的页面数量要大得多(见下图)。
我不确定它实际上是否好,因为它不仅使我的服务器更加繁忙(一天 903 页的下载量为 5.6 MB),而且我害怕它也会产生一些重复的内容。
我在 Google (site:mysite.com) 上进行了检查,它给了我 1290 个页面(但只有 191 个显示,除非我点击“重复搜索并包含省略的结果”。假设 191 个是我的站点地图中的那些(我认为我有大约 40 页重复内容的问题,但我只是为此更新了网站)。
关于我的 robots.txt 的事实
我使用 robots.txt 文件来禁止所有抓取引擎访问带有参数的页面(请参阅下面的机器人)以及“标签”。
User-Agent: *
Disallow: /administrator
Disallow: *?s
Disallow: *?r
Disallow: *?c
Disallow: *?viewmode
Disallow: */tags/*
Disallow: *?page=1
Disallow: */user/*
最重要的是标签。它们在我的网址中如下:
www.mysite.com/tags/Advertising/writing
它被 robots.txt 阻止(我已经与谷歌网站管理员核实)但它仍然存在于谷歌搜索中(但您需要点击“重复搜索并包含省略的结果。”)
我不希望这些页面被抓取,因为它是重复的内容(这是对关键字的一种搜索),这就是我将它们放在 robots.txt 中的原因
最后,我的问题是:
为什么 Google 会抓取我在 robots.txt 中屏蔽的网页?
为什么 Google 会将我屏蔽的页面编入索引?这些页面是否被 Google 视为重复内容?如果是,我想这对 SEO 不利。
编辑:我不是在问如何删除在 Google 中编入索引的页面(我已经知道答案了)。