1

我正在开发一个镜像美国大学学术目录的应用程序。为此,我有一个 Celery 工作者集群,它们使用wgethttrack来镜像内容、样式和脚本,然后上传到我们的 S3 存储桶。

对于少数大学网站,我在使用 wget/httrack 和 Windows Chrome 用户代理字符串时遇到了 403 - Forbidden 错误。但是,我可以在浏览器中加载网页。

我最初认为 user agent 和 referer 是这里的问题,所以我将它们分别设置为 Chrome 50 user agent 和 google.com。但是,我仍然遇到这个问题。但是,如果我对所有这些 URL 使用 python请求库,我会收到 HTTP 200 响应。

我已经确保使用了 cookie,所以我很茫然。有什么理由requests可以工作但wget/httrack不可以吗?

4

0 回答 0