0

是否可以对 linux 使用 wget 命令来获取网站目录树中的所有文件?

我可以递归地获取所有带有镜像等的网站,但我只想将所有文件放在一个目录中。在我看来,它看起来像:

    wget http://www.somesite.com/here/is/some/folders/*

这将下载 /folders/ 目录中的所有文件(不必递归查找子目录)。但是通配符似乎不适用于 wget 所以我正在寻找正确的方法。

4

1 回答 1

4

当然,如果有一个要递归的索引,wget -r它将递归下 的所有内容。folders/

您可以做的另一件事是,如果目录index.htm中有一个或任何内容folders,您可以通过将 wget 链接到 wget 进行 grep、sed 和剪切,如下所示:

wget -qO - http://foo/folder/index.htm | sed 's/href=/#/' | cut -d\# -f2 | \
  while read url; do wget $url; done

这通常是我需要刮擦并且出于任何原因无法递归时所做的事情。

编辑:

可能要正确添加--no-parent和设置--domainwget 手册页实际上非常好,涵盖了这些内容。

于 2013-10-22T22:51:49.717 回答