Google 何时重新抓取网站?为什么谷歌在缓存中有两个版本的同一页面?
http://forum.portal.edu.ro/index.php?showtopic=112733 缓存页面为:forum.portal.edu.ro/index.php?showtopic=112733&st=25/forum.portal.edu.ro/index .php?showtopic=112733&st=50
Google 何时重新抓取网站?为什么谷歌在缓存中有两个版本的同一页面?
http://forum.portal.edu.ro/index.php?showtopic=112733 缓存页面为:forum.portal.edu.ro/index.php?showtopic=112733&st=25/forum.portal.edu.ro/index .php?showtopic=112733&st=50
关于谷歌的抓取政策有很多讨论。您能做的最好的事情就是检查您的日志并确定他们对您网站的日程安排。
至于缓存中的多个条目,谷歌无法知道它们不是同一个页面;它们有不同的 URL 和可能不同的数据。如果要使用特定页面,请尝试使用<link rel="canonical" href="(standard URL)">
.
重新抓取页面的频率取决于它的排名有多高,以及您在站点地图中建议的更新间隔。还可能会考虑其他一些因素,例如页面的内容以及链接到该页面的站点类型。
缓存中的两个页面根本不是同一个页面,一个是线程中的第二页,另一个是第三页。由于它们具有不同的 URL 和不同的内容,它们是不同的页面。
如果您真的希望这些页面被搜索引擎视为相同,您可以使用link
标签 withrel="canonical"
指向线程的第一页。
@Chris:站点配置 > 设置 > 设置自定义抓取速度。此设置仅确定您的网站可以被抓取多少速度,它不设置抓取频率。要使您的网站获得更多抓取,请尝试将您网站的一些链接也发布到其他网站。
您可以通过调整来提高它的爬行速度:
站点配置 > 设置 > 设置自定义抓取速度
它取决于网站上的内容类型,也可能取决于其 PageRank。提供很少更新信息的静态页面可能每隔一个月左右就会被访问一次,而一个每天有很多帖子的热门博客可能一天会被抓取几次。(虽然在博客的情况下,通常博客软件会ping搜索引擎,因此是按需抓取的)
这些似乎是中等流量网站上的论坛帖子,因此应该每周抓取几次。即使是我自己的网站,目前在 Alexa 上的排名低于 8,000,000,每周都会通过几乎每天的 robots.txt 请求进行抓取。
具有相似内容的页面应该自动组合在一起,但如果不是,请尝试其他回答者给出的 rel="canonical" 提示。
@Chris:不,该设置不会改变您的网站被抓取的频率,只会改变谷歌在抓取期间请求页面的速度。这是一个误导性的设置,很多人都会犯这个错误,即使帮助页面清楚地表明了这一点。