http-status-code-301 - 重定向与“真实”页面点击：爬虫的观点

Question

背景：

bit.ly、ow.ly instagr.am 和 gowal.la 等站点域是在其他地方转发的缩短器。由于这些网址中的大多数实际上是转发到其他第三方网站，我假设他们可以处理相当重的负载。

问题：

与爬取“真实”内容页面（即 blogger.com/）相比，从单个域（即 ow.ly）爬取 301 重定向时是否有不同的礼貌指标？

更具体地说：与流式传输真实内容的普通网站相比，我们希望每天能够访问多少次发出 301 重定向的网站。

一些初步的想法：

我最初的猜测是（10E6 = 1,000,000），鉴于我在网上看到的情况表明，考虑到像不倒翁这样的大型网站接收大约（10E7 =每天 10,000,000+) 的浏览量，像谷歌这样的网站每天的浏览量约为 10E8（十亿）。

无论如何，我希望我所做的这一非常原始的事实调查能够激发一些想法，以在我们讨论 301 重定向与“真正的”页面抓取（带宽密集型）时定义“礼貌”指标的差异.

score 1 · Accepted Answer

如有疑问，请检查robots.txt. 有一个名为的非标准扩展Crawl-delay，正如您可以想象的那样，它指定请求之间等待的秒数。

你提到了bit.ly；他们robots.txt没有这样的限制，并且有一条人性化的评论说“欢迎机器人”。只要您不辱骂，您可能不会对他们有任何问题。那里也有评论说他们有一个 API。使用该 API 可能比爬行更有用。

至于定义滥用......好吧，不幸的是，这是一件非常主观的事情，而且不会有任何一个正确的答案。您可能需要询问每个特定供应商他们的建议和限制是什么，如果他们不通过其网站上的文档robots.txt或通过实际的 API 提供此信息，该 API 本身可能具有明确定义的访问限制。

1 回答 1