是否可以对 linux 使用 wget 命令来获取网站目录树中的所有文件?
我可以递归地获取所有带有镜像等的网站,但我只想将所有文件放在一个目录中。在我看来,它看起来像:
wget http://www.somesite.com/here/is/some/folders/*
这将下载 /folders/ 目录中的所有文件(不必递归查找子目录)。但是通配符似乎不适用于 wget 所以我正在寻找正确的方法。
当然,如果有一个要递归的索引,wget -r
它将递归下 的所有内容。folders/
您可以做的另一件事是,如果目录index.htm
中有一个或任何内容folders
,您可以通过将 wget 链接到 wget 进行 grep、sed 和剪切,如下所示:
wget -qO - http://foo/folder/index.htm | sed 's/href=/#/' | cut -d\# -f2 | \
while read url; do wget $url; done
这通常是我需要刮擦并且出于任何原因无法递归时所做的事情。
编辑:
可能要正确添加--no-parent
和设置--domain
。wget 手册页实际上非常好,涵盖了这些内容。