header - 对于 HEAD 请求，是否应该遵守 robots.txt？

Question

我有一个 URL 列表，希望找出它们是否重定向到其他地方，如果是，它们的最终位置是什么。我通过向这些 URL发送HEAD 请求来做到这一点。

该列表包含指向某些主机的链接，这些主机在robots.txt中不允许我的机器人（通常是任何机器人）。

我的问题是，为了礼貌-

score 0 · Accepted Answer

即使是 HEAD 请求，您也应该始终遵守 robots.txt。如果您不这样做，您不仅违反了网站的礼貌偏好，而且您的 IP 可能会被网站永久封锁。对网站上受限制且非人工访问的目录/页面的简单 HEAD 请求可以将您置于运营商的禁令列表中。

我也应该关注 robots.txt 的 HEAD 请求，并停止请求这些主机吗？

您应该关注 robots.txt，或者如果您已经被禁止，则停止请求这些主机。

如果 robots.txt 中提到了抓取延迟，我应该为这些 HEAD 请求遵守它吗？

是的。

是否有可以为我完成这项工作并返回一批输入 URL 的最终 URL 的 Web 服务？

我不知道，但也许你可以采用现有的爬虫来做到这一点。你更喜欢哪种编程语言？

1 回答 1