3

我有以下网站http://www.asd.com.tr。我想将所有 PDF 文件下载到一个目录中。我尝试了几个命令,但运气不佳。

$ wget --random-wait -r -l inf -nd -A pdf http://www.asd.com.tr/

使用此代码仅下载了四个 PDF 文件。检查此链接,有数千个 PDF 可用:

例如,数百个文件位于以下文件夹中:

但我不知道如何正确访问它们以查看和下载它们,这个子目录中有一些文件夹,http://www.asd.com.tr/Folders/,这些文件夹中有数千个 PDF .

我尝试使用-m命令镜像站点,但也失败了。

还有什么建议吗?

4

1 回答 1

9

首先,验证网站的 TOS 是否允许抓取它。然后,一种解决方案是:

mech-dump --links 'http://domain.com' |
    grep pdf$ |
    sed 's/\s+/%20/g' |
    xargs -I% wget http://domain.com/%

mech-dump命令带有 Perl 的模块WWW::Mechanizelibwww-mechanize-perldebian 和 debian like distros 上的包)

于 2013-11-09T21:05:40.243 回答