python - 多次HTTP重定向后自动下载pdf文件

翻译自：https://stackoverflow.com/questions/29624570 2015-04-14T10:07:20.460

298 次

A/38/7/CORR.1(SUPP) 我想下载此页面中的所有 pdf 文件：[ http://search.un.org/?query=A&searchTrigger=%E6%90%9C%E7%B4 %A2+ODS&SS=DS&tpl=ods&lang=zh-cn]

一个示例链接是：A/38/7/CORR.1(SUPP)。这个链接会重定向两次到真正的 pdf url，并且需要 cookie，它首先刷新到一个 tmp url（每次更改），通过 : <META HTTP-EQUIV="refresh" CONTENT="0; URL=/TMP/625508.055090904.html">，然后页面刷新到一个真实的 url，通过：<META HTTP-EQUIV="refresh" CONTENT="1; URL=http://daccess-dds-ny.un.org/doc/UNDOC/GEN/N83/368/31/PDF/N8336831.pdf?OpenElement">

这可以在浏览器中轻松完成，当我尝试使用 wget 或 python 批量下载时，这似乎是不可能的。

wget：即使使用 --load-cookie 选项，我也无法从原始 url 获取 tmp url

python：我尝试了 urllib、urllib2 和 mechanize，我无法处理自动刷新，无法获取真正的 url

有没有人有什么暗示？非常感谢。

python - 多次HTTP重定向后自动下载pdf文件

0 回答 0

Related

Reference