wget - 镜像网站 - 403 Forbidden with user agent strings

翻译自：https://stackoverflow.com/questions/37488713 2016-05-27T16:51:25.383

1286 次

我正在开发一个镜像美国大学学术目录的应用程序。为此，我有一个 Celery 工作者集群，它们使用wget或httrack来镜像内容、样式和脚本，然后上传到我们的 S3 存储桶。

对于少数大学网站，我在使用 wget/httrack 和 Windows Chrome 用户代理字符串时遇到了 403 - Forbidden 错误。但是，我可以在浏览器中加载网页。

我最初认为 user agent 和 referer 是这里的问题，所以我将它们分别设置为 Chrome 50 user agent 和 google.com。但是，我仍然遇到这个问题。但是，如果我对所有这些 URL 使用 python请求库，我会收到 HTTP 200 响应。

我已经确保使用了 cookie，所以我很茫然。有什么理由requests可以工作但wget/httrack不可以吗？

0 回答 0