我需要从某个域下载所有 pdf 文件。该域上大约有 6000 个 pdf,其中大多数没有 html 链接(他们已经删除了链接,或者他们从未将链接放在首位)。
我知道大约有 6000 个文件,因为我正在谷歌搜索:filetype:pdf site:*.adomain.com
但是,Google 仅列出前 1000 个结果。我相信有两种方法可以实现这一目标:
a) 使用谷歌。但是,我如何才能从 Google 获得所有 6000 个结果?也许是刮刀?(试过 scroogle,没有运气) b)跳过谷歌并直接在域上搜索 pdf 文件。当大多数它们没有链接时,我该怎么做?