pdf-scraping - 如何从网站下载链接的pdf文件？

Question

我想从一个站点下载数百个 pdf 文档。我已经尝试过 SiteSucker 和类似工具，但它不起作用，因为文件和链接到它们的页面之间似乎存在一些“分离”。我不知道如何用更好的方式来描述这一点，因为我对网站编程或抓取知之甚少。关于这可能是什么以及如何规避它的任何建议？

更具体地说，我正在尝试下载联合国决议的 pdf，存储在这样的页面上：http ://www.un.org/depts/dhl/resguide/r53_en.shtml

联合国网站上似乎有一个内置的“搜索功能”，这使得像 SiteSucker 这样的虚拟抓取无法按预期工作。

还有其他我可以使用的工具吗？

score 0 · Accepted Answer

单击您提到的页面上的链接会重定向到由两个框架（html）组成的页面。第一个是“标题”，第二个加载页面以生成 PDF 文件并将其嵌入其中。PDF 文件的 URL 很难猜测。我不知道有什么免费工具可以报废这种类型的页面。

这是以 PDF 文件结尾的第二帧中的 url 示例：

1 回答 1