wget - 我应该如何使用 wget 或 httrack 从文件夹（并且只有它的子文件夹）下载特定的文件类型？

Question

我正在尝试使用 HTTrack 或 Wget 从网站下载一些 .docx 文件。我只想为文件夹及其子文件夹执行此操作。例如：www.examplewebsite.com/doc（这又下降了 5 个级别）

如何做到这一点的好方法？

score 4 · Accepted Answer

考虑到“蜘蛛”选项始终没有特别下载，而是遵循，先前提出的答案是可笑的。

迟到总比没有好，但这是您寻求在本地镜像所需文件扩展名文件的命令，但作为奖励，下拉目标 html 并自动调整它，以便如果您在本地打开它并单击链接，它们将相应地更改和调整到现在指向本地驱动器。

wget -e robots=off -r -k -A docx,doc "https://<url>"

如果这对您有用，我将不胜感激答案！

score 3 · Accepted Answer

您可以将 --spider 与 -r （递归选项）一起使用，并让 --accept 过滤您感兴趣的文件

wget --spider -r --accept "*.docx"  <url>

score 0 · Accepted Answer

用法

wget -r -np -A pdf,doc https://web.cs.ucla.edu/~harryxu/

结果

tree

└── web.cs.ucla.edu
    ├── ~harryxu
    │   ├── papers
    │   │   ├── chianina-pldi21.pdf
    │   │   ├── dorylus-osdi21.pdf
    │   │   ├── genc-pldi20.pdf
    │   │   ├── jaaru-asplos21.pdf
    │   │   ├── jportal-pldi21.pdf
    │   │   ├── li-sigcomm20.pdf
    │   │   ├── trimananda-fse20.pdf
    │   │   ├── vigilia-sec18.pdf
    │   │   ├── vora-asplos17.pdf
    │   │   ├── wang-asplos17.pdf
    │   │   ├── wang-osdi18.pdf
    │   │   ├── wang-osdi20.pdf
    │   │   ├── wang-pldi19.pdf
    │   │   └── zuo-eurosys19.pdf

wget - 我应该如何使用 wget 或 httrack 从文件夹（并且只有它的子文件夹）下载特定的文件类型？

3 回答 3

Related

Reference