wget - wget 只下载一个 index.html 文件而不是其他大约 500 个 html 文件

Question

使用 Wget 我通常只收到一个 -- index.html 文件。我输入以下字符串：

唉，它只返回一个 index.html 文件。

目录 aa03 表示康德的书，第 3 卷，里面肯定有 560 个文件（页）左右。这些页面可以在线阅读，但不会被下载。有什么补救办法吗？！谢谢

score 5 · Accepted Answer

按照该链接将我们带到：

wget 不会跟随指向用户未指定域的链接。由于 korpora.zim.uni-duisburg-essen.de 不等于 korpora.org，wget 不会跟随索引页面上的链接。

要解决此问题，请使用 --span-hosts 或 -H。-rH 是一个非常危险的组合——结合起来，你可能会不小心爬到整个互联网——所以你会希望它的范围非常集中。此命令将执行您打算执行的操作：

wget -e robots=off -rH -l inf -np -D korpora.org,korpora.zim.uni-duisburg-essen.de http://korpora.org/kant/aa03/index.html

（-np 或 --no-parent 会将抓取限制为 aa03/。-D 会将其限制为仅这两个域。-l inf 将无限深抓取，受 -D 和 -np 的约束）。

1 回答 1