2

A/38/7/CORR.1(SUPP) 我想下载此页面中的所有 pdf 文件:[ http://search.un.org/?query=A&searchTrigger=%E6%90%9C%E7%B4 %A2+ODS&SS=DS&tpl=ods&lang=zh-cn]

一个示例链接是:A/38/7/CORR.1(SUPP)。这个链接会重定向两次到真正的 pdf url,并且需要 cookie,它首先刷新到一个 tmp url(每次更改),通过 : <META HTTP-EQUIV="refresh" CONTENT="0; URL=/TMP/625508.055090904.html">,然后页面刷新到一个真实的 url,通过:<META HTTP-EQUIV="refresh" CONTENT="1; URL=http://daccess-dds-ny.un.org/doc/UNDOC/GEN/N83/368/31/PDF/N8336831.pdf?OpenElement">

这可以在浏览器中轻松完成,当我尝试使用 wget 或 python 批量下载时,这似乎是不可能的。

wget:即使使用 --load-cookie 选项,我也无法从原始 url 获取 tmp url

python:我尝试了 urllib、urllib2 和 mechanize,我无法处理自动刷新,无法获取真正的 url

有没有人有什么暗示?非常感谢。

4

0 回答 0