0

背景 :

bit.ly、ow.ly instagr.am 和 gowal.la 等站点域是在其他地方转发的缩短器。由于这些网址中的大多数实际上是转发到其他第三方网站,我假设他们可以处理相当重的负载。

问题 :

与爬取“真实”内容页面(即 blogger.com/)相比,从单个域(即 ow.ly)爬取 301 重定向时是否有不同的礼貌指标?

更具体地说:与流式传输真实内容的普通网站相比,我们希望每天能够访问多少次发出 301 重定向的网站。

一些初步的想法:

  • 我最初的猜测是(10E6 = 1,000,000),鉴于我在网上看到的情况表明,考虑到像不倒翁这样的大型网站接收大约(10E7 =每天 10,000,000+) 的浏览量,像谷歌这样的网站每天的浏览量约为 10E8(十亿)。

无论如何,我希望我所做的这一非常原始的事实调查能够激发一些想法,以在我们讨论 301 重定向与“真正的”页面抓取(带宽密集型)时定义“礼貌”指标的差异.

4

1 回答 1

1

如有疑问,请检查robots.txt. 有一个名为 的非标准扩展Crawl-delay,正如您可以想象的那样,它指定请求之间等待的秒数。

你提到了bit.ly;他们robots.txt没有这样的限制,并且有一条人性化的评论说“欢迎机器人”。只要您不辱骂,您可能不会对他们有任何问题。那里也有评论说他们有一个 API。使用该 API 可能比爬行更有用。

至于定义滥用......好吧,不幸的是,这是一件非常主观的事情,而且不会有任何一个正确的答案。您可能需要询问每个特定供应商他们的建议和限制是什么,如果他们不通过其网站上的文档robots.txt或通过实际的 API 提供此信息,该 API 本身可能具有明确定义的访问限制。

于 2012-06-27T16:18:03.753 回答