在现有的 .Net MVC3 站点上,我们实现了 URL 类似于 的分页www.mysite.com/someterm/anotherterm/_p/89/10
,其中 89 是页码,10 是每页的结果数。
不幸的rel="nofollow"
是,大于 3 的页码链接丢失了,并且这些页面也丢失了<meta name="robots" content="noindex,nofollow" />
。
问题是谷歌和其他一些搜索引擎现在已经索引了这些页面,并且现在尝试非常频繁地抓取所有这些页面,正如我们发现的那样,这开始对 prod db 服务器产生巨大影响。我们不希望抓取所有额外的数千个页面,只抓取前几个。
我将代码恢复为不包含分页的站点版本,这样我们的数据库服务器现在就不会受到如此严重的打击。因此,虽然搜索引擎会为所有这些页面收到 404 错误,但我想知道这是否是最好的做法,因为过一段时间我会再次介绍分页站点?
我可以将以下内容添加到 web.config 以将所有 404 重定向到主页:
<httpErrors errorMode="Custom">
<remove statusCode="404"/>
<error statusCode="404" path="/" responseMode="ExecuteURL"/>
</httpErrors>
但我认为,对于所有具有分页 URL 参数的页面,这样做将被呈现为“重复内容”。
让那些 404 持续一两个星期然后重新引入寻呼站点是最好的主意吗?
另一种选择可能是释放分页站点,并添加一些代码以拒绝超过 3 个页面的爬虫。建议?
有没有更快的方法将这些页面从索引中取出,这样它们就不会被抓取?
谢谢。