我有一个 URL 列表,希望找出它们是否重定向到其他地方,如果是,它们的最终位置是什么。我通过向这些 URL发送HEAD 请求来做到这一点。
该列表包含指向某些主机的链接,这些主机在robots.txt中不允许我的机器人(通常是任何机器人)。
我的问题是,为了礼貌-
我也应该关注 robots.txt 的 HEAD 请求,并停止请求这些主机吗?
如果 robots.txt 中提到了抓取延迟,我应该为这些 HEAD 请求遵守它吗?
- 是否有可以为我完成这项工作并返回一批输入 URL 的最终 URL 的 Web 服务?