2

由于网站切换到 HTTPS,因此 Googlebot 应该在抓取链接上进行双重抓取 - 因为有额外的跃点,从 HTTP 重定向到 HTTPS。它应该是相当大的计算能力,这是需要的。

我在想,Googlebot 是否确实实现了双倍的努力,或者它是否有任何提示可以识别 HTTPS 并直接访问它而不触发重定向以节省额外的跃点?

  • 如果 HSTS 调整正确,那么从 HTTP 到 HTTPS 的重定向不会被触发并且流量直接到 HTTPS 是否正确?
  • 会不会是可能是无头 Chrome 的 Googlebot 有线索/提示可以识别 HTTP 后面的 HTTPS 以直接转到 HTTPS?
4

1 回答 1

1

目前 Googlebot 不存储 HSTS 也不查看预加载列表。在此问题上对此进行了讨论:https ://github.com/chromium/hstspreload.org/issues/67

老实说,与下载页面所需的所有资源然后准确呈现和索引它的计算成本相比,遵循重定向的计算成本很小。重定向是网络的标准部分,爬虫能够很好地处理它们。

此外,网站将跟随链接,包括 HTML 的 HEAD 部分中的站点地图和规范 URL。他们不只是随机访问他们不知道的网站并抓取 HTTP。因此,如果站点到处都使用 HTTPS,那么无论如何都应该很少抓取 HTTP URL。

最后,这个问题可能更适合https://webmasters.stackexchange.com而不是 Stack Overflow。

于 2017-07-11T11:51:34.747 回答