-1

我想从一个站点下载数百个 pdf 文档。我已经尝试过 SiteSucker 和类似工具,但它不起作用,因为文件和链接到它们的页面之间似乎存在一些“分离”。我不知道如何用更好的方式来描述这一点,因为我对网站编程或抓取知之甚少。关于这可能是什么以及如何规避它的任何建议?

更具体地说,我正在尝试下载联合国决议的 pdf,存储在这样的页面上:http ://www.un.org/depts/dhl/resguide/r53_en.shtml

联合国网站上似乎有一个内置的“搜索功能”,这使得像 SiteSucker 这样的虚拟抓取无法按预期工作。

还有其他我可以使用的工具吗?

4

1 回答 1

0

单击您提到的页面上的链接会重定向到由两个框架(html)组成的页面。第一个是“标题”,第二个加载页面以生成 PDF 文件并将其嵌入其中。PDF 文件的 URL 很难猜测。我不知道有什么免费工具可以报废这种类型的页面。

这是以 PDF 文件结尾的第二帧中的 url 示例:

http://daccess-dds-ny.un.org/doc/UNDOC/GEN/N99/774/43/PDF/N9977443.pdf?OpenElement

于 2014-09-11T10:12:40.130 回答