我想从一个站点下载数百个 pdf 文档。我已经尝试过 SiteSucker 和类似工具,但它不起作用,因为文件和链接到它们的页面之间似乎存在一些“分离”。我不知道如何用更好的方式来描述这一点,因为我对网站编程或抓取知之甚少。关于这可能是什么以及如何规避它的任何建议?
更具体地说,我正在尝试下载联合国决议的 pdf,存储在这样的页面上:http ://www.un.org/depts/dhl/resguide/r53_en.shtml
联合国网站上似乎有一个内置的“搜索功能”,这使得像 SiteSucker 这样的虚拟抓取无法按预期工作。
还有其他我可以使用的工具吗?