linux - 有没有办法在通配符上使用 wget ？

Question

是否可以对 linux 使用 wget 命令来获取网站目录树中的所有文件？

我可以递归地获取所有带有镜像等的网站，但我只想将所有文件放在一个目录中。在我看来，它看起来像：

    wget http://www.somesite.com/here/is/some/folders/*

这将下载 /folders/ 目录中的所有文件（不必递归查找子目录）。但是通配符似乎不适用于 wget 所以我正在寻找正确的方法。

score 4 · Accepted Answer

当然，如果有一个要递归的索引，wget -r它将递归下的所有内容。folders/

您可以做的另一件事是，如果目录index.htm中有一个或任何内容folders，您可以通过将 wget 链接到 wget 进行 grep、sed 和剪切，如下所示：

wget -qO - http://foo/folder/index.htm | sed 's/href=/#/' | cut -d\# -f2 | \
  while read url; do wget $url; done

这通常是我需要刮擦并且出于任何原因无法递归时所做的事情。

编辑：

可能要正确添加--no-parent和设置--domain。wget 手册页实际上非常好，涵盖了这些内容。

1 回答 1