1

我有一个 URL 列表,希望找出它们是否重定向到其他地方,如果是,它们的最终位置是什么。我通过向这些 URL发送HEAD 请求来做到这一点。

该列表包含指向某些主机的链接,这些主机在robots.txt中不允许我的机器人(通常是任何机器人)。

我的问题是,为了礼貌-

  1. 我也应该关注 robots.txt 的 HEAD 请求,并停止请求这些主机吗?

  2. 如果 robots.txt 中提到了抓取延迟,我应该为这些 HEAD 请求遵守它吗?

  3. 是否有可以为我完成这项工作并返回一批输入 URL 的最终 URL 的 Web 服务?
4

1 回答 1

0

即使是 HEAD 请求,您也应该始终遵守 robots.txt。如果您不这样做,您不仅违反了网站的礼貌偏好,而且您的 IP 可能会被网站永久封锁。对网站上受限制且非人工访问的目录/页面的简单 HEAD 请求可以将您置于运营商的禁令列表中。

  1. 我也应该关注 robots.txt 的 HEAD 请求,并停止请求这些主机吗?

您应该关注 robots.txt,或者如果您已经被禁止,则停止请求这些主机。

  1. 如果 robots.txt 中提到了抓取延迟,我应该为这些 HEAD 请求遵守它吗?

是的。

  1. 是否有可以为我完成这项工作并返回一批输入 URL 的最终 URL 的 Web 服务?

我不知道,但也许你可以采用现有的爬虫来做到这一点。你更喜欢哪种编程语言?

于 2013-02-01T22:10:12.240 回答