wget - 使用 wget 下载所有 pdf 文件

Question

我有以下网站http://www.asd.com.tr。我想将所有 PDF 文件下载到一个目录中。我尝试了几个命令，但运气不佳。

$ wget --random-wait -r -l inf -nd -A pdf http://www.asd.com.tr/

使用此代码仅下载了四个 PDF 文件。检查此链接，有数千个 PDF 可用：

例如，数百个文件位于以下文件夹中：

但我不知道如何正确访问它们以查看和下载它们，这个子目录中有一些文件夹，http://www.asd.com.tr/Folders/，这些文件夹中有数千个 PDF .

我尝试使用-m命令镜像站点，但也失败了。

还有什么建议吗？

score 9 · Accepted Answer

首先，验证网站的 TOS 是否允许抓取它。然后，一种解决方案是：

mech-dump --links 'http://domain.com' |
    grep pdf$ |
    sed 's/\s+/%20/g' |
    xargs -I% wget http://domain.com/%

该mech-dump命令带有 Perl 的模块WWW::Mechanize（libwww-mechanize-perldebian 和 debian like distros 上的包）

1 回答 1