背景 :
bit.ly、ow.ly instagr.am 和 gowal.la 等站点域是在其他地方转发的缩短器。由于这些网址中的大多数实际上是转发到其他第三方网站,我假设他们可以处理相当重的负载。
问题 :
与爬取“真实”内容页面(即 blogger.com/)相比,从单个域(即 ow.ly)爬取 301 重定向时是否有不同的礼貌指标?
更具体地说:与流式传输真实内容的普通网站相比,我们希望每天能够访问多少次发出 301 重定向的网站。
一些初步的想法:
- 我最初的猜测是(10E6 = 1,000,000),鉴于我在网上看到的情况表明,考虑到像不倒翁这样的大型网站接收大约(10E7 =每天 10,000,000+) 的浏览量,像谷歌这样的网站每天的浏览量约为 10E8(十亿)。
无论如何,我希望我所做的这一非常原始的事实调查能够激发一些想法,以在我们讨论 301 重定向与“真正的”页面抓取(带宽密集型)时定义“礼貌”指标的差异.