0

我有一个奇怪的问题,我一直在尝试“google-out”几个小时。
我也尝试了堆栈上类似主题的解决方案,但仍然没有积极的结果:

如何使用 Python urlopen 设置 cookie?
使用 Python/urllib2 处理 rss 重定向

所以情况是我想从某个网页下载整套文章。它具有正确内容的子链接只有一个数字,所以我循环整个范围(1到400 000)并将html写入文件。这里重要的是这个网页需要重新发送 cookie 以获取正确的 url,并且在讲完 如何使用 Python 登录网页并检索 cookie 以供以后使用?我已经完成了。

但有时我的脚本会返回错误:

response = meth(req, response)
File "/usr/lib/python3.1/urllib/request.py", line 468, in http_response
'http', request, response, code, msg, hdrs)
....
文件“/usr/lib/python3.1/urllib/request.py”,第 553 行,在 http_error_302 self.inf_msg + msg, headers, fp)
urllib.error.HTTPError: HTTP Error 302: HTTP 服务器返回了一个重定向错误会导致无限循环。
最后 30x 错误消息是:
找到

这个问题很难重现,因为脚本通常可以正常工作,但它会在数千个“for 循环”之后随机发生。

这是来自服务器的 curl 输出:
$ curl -I "http://my.url/"
HTTP/1.1 200 OK
Date: Wed, 17 Oct 2012 10:14:13 GMT
Server: Apache/2.2.15 (Oracle)
X-Powered-By: PHP/5.3.3
Set-Cookie: Kuuxk=ae7s3isu2cEshhijte4nb1clk5; path=/
Expires: Thu, 19 Nov 1981 08:52:00 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Vary: Accept-Encoding
Connection: close
Content-Type: text/html; charset=UTF-8

有些人建议使用机械化或尝试捕获异常,但我不知道如何做到这一点,其他人说错误是由错误的 cookie 处理引起的,但我也尝试使用 urllib2“手动”获取和发送 cookie add_header('cookie', cookie),结果相似。我想知道我的for循环和短暂睡眠是否会导致脚本有时失败..
Anwyay -任何帮助表示赞赏。

编辑:
如果这可能有效 - 如何捕获异常并尝试忽略它?

编辑:

只需忽略此错误即可解决。没有一切顺利。
我用了

    尝试:  
        #这里打开网址  
    除了 any_HTTPError:  
        经过  

每次我使用 url.open 指令。

关闭。

4

1 回答 1

0

让我建议另一种解决方案:HTTP 状态代码 302 表示Found redirection(参见:https ://en.wikipedia.org/wiki/HTTP_302 )。

例如: HTTP/1.1 302 Found Location: http://www.iana.org/domains/example/

您可以抓取Location标题并尝试获取此网址。

有 8 个重定向状态代码 (301-308)。如果 301 <= 状态码 <= 308 ,您可以使用Location标题。

于 2016-08-17T05:12:55.077 回答