我正在尝试使用 HTTrack 或 Wget 从网站下载一些 .docx 文件。我只想为文件夹及其子文件夹执行此操作。例如:www.examplewebsite.com/doc(这又下降了 5 个级别)
如何做到这一点的好方法?
考虑到“蜘蛛”选项始终没有特别下载,而是遵循,先前提出的答案是可笑的。
迟到总比没有好,但这是您寻求在本地镜像所需文件扩展名文件的命令,但作为奖励,下拉目标 html 并自动调整它,以便如果您在本地打开它并单击链接,它们将相应地更改和调整到现在指向本地驱动器。
wget -e robots=off -r -k -A docx,doc "https://<url>"
如果这对您有用,我将不胜感激答案!
您可以将 --spider 与 -r (递归选项)一起使用,并让 --accept 过滤您感兴趣的文件
wget --spider -r --accept "*.docx" <url>
用法
wget -r -np -A pdf,doc https://web.cs.ucla.edu/~harryxu/
结果
tree
└── web.cs.ucla.edu
├── ~harryxu
│ ├── papers
│ │ ├── chianina-pldi21.pdf
│ │ ├── dorylus-osdi21.pdf
│ │ ├── genc-pldi20.pdf
│ │ ├── jaaru-asplos21.pdf
│ │ ├── jportal-pldi21.pdf
│ │ ├── li-sigcomm20.pdf
│ │ ├── trimananda-fse20.pdf
│ │ ├── vigilia-sec18.pdf
│ │ ├── vora-asplos17.pdf
│ │ ├── wang-asplos17.pdf
│ │ ├── wang-osdi18.pdf
│ │ ├── wang-osdi20.pdf
│ │ ├── wang-pldi19.pdf
│ │ └── zuo-eurosys19.pdf